이 논문은 순차적 추천 시스템에서 강화 학습 알고리즘의 안정성과 성능 향상을 위한 방법을 제안한다.
먼저, 저자들은 순차적 추천 문제를 강화 학습 프레임워크로 정의한다. 이를 통해 사용자 피드백을 직접 활용할 수 있어 개인화를 향상시킬 수 있다. 그러나 오프-정책 학습, 조합적 행동 공간, 보상 신호의 부족 등의 문제가 발생한다.
이를 해결하기 위해 저자들은 두 가지 핵심 기법을 제안한다:
실험 결과, 제안 방법인 SASRec-CCQL이 다양한 실제 데이터셋에서 기존 방법들보다 우수한 성능과 안정성을 보였다. 특히 부정적 샘플링 전략과 관련된 문제를 효과적으로 해결하였다.
A otro idioma
del contenido fuente
arxiv.org
Ideas clave extraídas de
by Melissa Mozi... a las arxiv.org 04-19-2024
https://arxiv.org/pdf/2305.18820.pdfConsultas más profundas