核心概念
대규모 언어 모델은 학습 데이터에 포함된 민감하거나 저작권이 있는 정보를 기억할 수 있다. 이 문제를 해결하기 위해 언러닝 기법이 제안되었지만, 기존 방법들은 모델의 유용성을 크게 저하시키는 문제가 있다. 본 연구에서는 Negative Preference Optimization (NPO)라는 새로운 언러닝 기법을 제안하여, 이러한 문제를 해결하고 더 나은 언러닝 성능을 달성한다.
摘要
이 논문은 대규모 언어 모델(LLM)의 언러닝 문제를 다룬다. LLM은 대량의 인터넷 데이터로 사전 학습되어 학습 데이터의 일부를 기억할 수 있는데, 이는 개인정보 유출, 저작권 침해 등의 문제를 야기할 수 있다. 이에 따라 언러닝 기법이 연구되고 있다.
기존 언러닝 방법은 주로 gradient ascent(GA) 기반으로, 언러닝 대상 데이터에 대한 예측 손실을 최대화하는 방식이다. 그러나 이 방식은 모델의 유용성을 크게 저하시키는 문제가 있다(catastrophic collapse).
이 논문에서는 Negative Preference Optimization(NPO)라는 새로운 언러닝 기법을 제안한다. NPO는 선호도 최적화 프레임워크에서 영감을 얻었으며, 오직 부정적인 예제만을 사용한다. 이론적으로 NPO는 GA보다 모델 divergence 속도가 느리므로 catastrophic collapse를 방지할 수 있다.
실험 결과, NPO 기반 방법은 기존 방법보다 언러닝 성능과 모델 유용성의 균형을 더 잘 달성한다. 특히 TOFU 데이터셋에서 NPO+RT 방법은 기존 방법이 10%의 데이터도 효과적으로 언러닝하지 못한 반면, 50%의 데이터를 언러닝할 수 있는 첫 사례를 보여준다.
统计
대규모 언어 모델은 학습 데이터의 일부를 기억할 수 있다.
이는 개인정보 유출, 저작권 침해 등의 문제를 야기할 수 있다.
언러닝 기법은 특정 학습 데이터의 영향을 제거하면서 모델의 다른 지식과 기능을 유지하는 것을 목표로 한다.
기존 gradient ascent 기반 언러닝 방법은 모델의 유용성을 크게 저하시키는 문제가 있다.
引用
"Large Language Models (LLMs) often memorize sensitive, private, or copyrighted data during pre-training."
"Gradient ascent based approaches remain unsatisfactory."
"NPO-based methods are the first to achieve reasonable unlearning results in forgetting 50% (or more) of the training data, whereas existing methods already struggle with forgetting 10% of training data."