이 논문은 순차적 추천 시스템에서 강화 학습 알고리즘의 안정성과 성능 향상을 위한 방법을 제안한다.
먼저, 저자들은 순차적 추천 문제를 강화 학습 프레임워크로 정의한다. 이를 통해 사용자 피드백을 직접 활용할 수 있어 개인화를 향상시킬 수 있다. 그러나 오프-정책 학습, 조합적 행동 공간, 보상 신호의 부족 등의 문제가 발생한다.
이를 해결하기 위해 저자들은 두 가지 핵심 기법을 제안한다:
실험 결과, 제안 방법인 SASRec-CCQL이 다양한 실제 데이터셋에서 기존 방법들보다 우수한 성능과 안정성을 보였다. 특히 부정적 샘플링 전략과 관련된 문제를 효과적으로 해결하였다.
Ke Bahasa Lain
dari konten sumber
arxiv.org
Wawasan Utama Disaring Dari
by Melissa Mozi... pada arxiv.org 04-19-2024
https://arxiv.org/pdf/2305.18820.pdfPertanyaan yang Lebih Dalam