Conceitos Básicos
대규모 언어 모델의 안전성과 유용성 사이의 균형을 맞추는 것은 매우 중요하며, 고급 교사 모델을 사용한 훈련 데이터 과생성과 선호도 최적화 기법을 통해 안전성을 유지하면서 과도한 거부를 줄일 수 있습니다.
Resumo
대규모 언어 모델의 안전성 및 과도한 거부 문제 해결을 위한 POROver: 연구 논문 요약
Batuhan K. Karaman, Ishmam Zabir, Alon Benhaim, Vishrav Chaudhary, Mert R. Sabuncu, Xia Song. (2024). POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization. arXiv preprint arXiv:2410.12999.
본 연구는 대규모 언어 모델 (LLM)에서 안전성을 유지하면서 과도한 거부 (overrefusal)를 줄이는 방법을 모색합니다.