Khái niệm cốt lõi
대규모 언어 모델의 안전성과 유용성 사이의 균형을 맞추는 것은 매우 중요하며, 고급 교사 모델을 사용한 훈련 데이터 과생성과 선호도 최적화 기법을 통해 안전성을 유지하면서 과도한 거부를 줄일 수 있습니다.
Tóm tắt
대규모 언어 모델의 안전성 및 과도한 거부 문제 해결을 위한 POROver: 연구 논문 요약
Batuhan K. Karaman, Ishmam Zabir, Alon Benhaim, Vishrav Chaudhary, Mert R. Sabuncu, Xia Song. (2024). POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization. arXiv preprint arXiv:2410.12999.
본 연구는 대규모 언어 모델 (LLM)에서 안전성을 유지하면서 과도한 거부 (overrefusal)를 줄이는 방법을 모색합니다.