核心概念
순차적 추천 시스템에서 강화 학습 알고리즘의 안정성과 성능을 향상시키기 위해 보수적 Q-러닝과 대조 학습 기법을 통합하는 방법을 제안한다.
摘要
이 논문은 순차적 추천 시스템에서 강화 학습 알고리즘의 안정성과 성능 향상을 위한 방법을 제안한다.
먼저, 저자들은 순차적 추천 문제를 강화 학습 프레임워크로 정의한다. 이를 통해 사용자 피드백을 직접 활용할 수 있어 개인화를 향상시킬 수 있다. 그러나 오프-정책 학습, 조합적 행동 공간, 보상 신호의 부족 등의 문제가 발생한다.
이를 해결하기 위해 저자들은 두 가지 핵심 기법을 제안한다:
- 보수적 Q-러닝(Conservative Q-Learning, CQL): 오버 추정 문제를 해결하여 안정성을 높인다.
- 대조 학습(Contrastive Learning): 표현 학습을 강화하여 성능을 향상시킨다.
실험 결과, 제안 방법인 SASRec-CCQL이 다양한 실제 데이터셋에서 기존 방법들보다 우수한 성능과 안정성을 보였다. 특히 부정적 샘플링 전략과 관련된 문제를 효과적으로 해결하였다.
統計資料
추천 시스템에서 강화 학습 알고리즘 적용 시 발생할 수 있는 문제는 오프-정책 학습, 조합적 행동 공간, 보상 신호의 부족 등이다.
보수적 Q-러닝은 Q-값 과대 추정 문제를 해결하여 안정성을 높일 수 있다.
대조 학습은 표현 학습을 강화하여 성능 향상에 기여한다.
引述
"순차적 추천 문제를 강화 학습 프레임워크로 정의하면 사용자 피드백을 직접 활용할 수 있어 개인화를 향상시킬 수 있다."
"보수적 Q-러닝은 Q-값 과대 추정 문제를 해결하여 안정성을 높일 수 있다."
"대조 학습은 표현 학습을 강화하여 성능 향상에 기여한다."