이 논문은 대규모 언어 모델(LLM)의 언러닝 문제를 다룬다. LLM은 대량의 인터넷 데이터로 사전 학습되어 학습 데이터의 일부를 기억할 수 있는데, 이는 개인정보 유출, 저작권 침해 등의 문제를 야기할 수 있다. 이에 따라 언러닝 기법이 연구되고 있다.
기존 언러닝 방법은 주로 gradient ascent(GA) 기반으로, 언러닝 대상 데이터에 대한 예측 손실을 최대화하는 방식이다. 그러나 이 방식은 모델의 유용성을 크게 저하시키는 문제가 있다(catastrophic collapse).
이 논문에서는 Negative Preference Optimization(NPO)라는 새로운 언러닝 기법을 제안한다. NPO는 선호도 최적화 프레임워크에서 영감을 얻었으며, 오직 부정적인 예제만을 사용한다. 이론적으로 NPO는 GA보다 모델 divergence 속도가 느리므로 catastrophic collapse를 방지할 수 있다.
실험 결과, NPO 기반 방법은 기존 방법보다 언러닝 성능과 모델 유용성의 균형을 더 잘 달성한다. 특히 TOFU 데이터셋에서 NPO+RT 방법은 기존 방법이 10%의 데이터도 효과적으로 언러닝하지 못한 반면, 50%의 데이터를 언러닝할 수 있는 첫 사례를 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ruiqi Zhang,... at arxiv.org 04-10-2024
https://arxiv.org/pdf/2404.05868.pdfDeeper Inquiries