Główne pojęcia
DataInf는 대규모 생성 AI 모델에 실용적으로 적용할 수 있는 효율적인 데이터 영향력 근사 방법이다. 이는 계산 및 메모리 효율성이 뛰어나며, 특히 LoRA와 같은 매개변수 효율적인 미세 조정 기술에 적합하다.
Streszczenie
이 논문은 대규모 언어 모델(LLM)과 텍스트-이미지 모델의 출력을 이해하고 AI 파이프라인의 투명성을 높이기 위해 학습 데이터 포인트의 영향력을 정량화하는 것이 중요하다고 강조한다. 영향 함수는 이를 위한 원칙적이고 널리 사용되는 방법이지만, 계산 비용이 높아 실용적으로 사용하기 어렵다는 문제가 있다.
이 문제는 LLM과 텍스트-이미지 모델에서 더욱 두드러진다. 이에 저자들은 DataInf라는 효율적인 영향력 근사 방법을 제안한다. DataInf는 계산이 쉬운 폐쇄형 표현을 활용하여 기존 영향력 계산 알고리즘보다 계산 및 메모리 효율성이 뛰어나다. 이론적 분석 결과, DataInf는 LoRA와 같은 매개변수 효율적인 미세 조정 기술에 특히 적합하다.
실험 결과, DataInf는 기존 방법보다 영향력 점수를 정확하게 근사하며, 훨씬 더 빠르다. RoBERTa-large, Llama-2-13B-chat, stable-diffusion-v1.5 모델에 적용한 결과, DataInf는 다른 근사 영향력 점수보다 미세 조정 예시를 더 잘 식별할 수 있었다. 또한 DataInf는 잘못 레이블된 데이터 포인트를 식별하는 데에도 도움이 될 수 있다.
Statystyki
학습 데이터 포인트의 영향력을 정량화하는 것이 중요하다.
영향 함수는 원칙적이고 널리 사용되는 방법이지만, 계산 비용이 높다.
이 문제는 LLM과 텍스트-이미지 모델에서 더욱 두드러진다.
Cytaty
"Quantifying the impact of training data points is crucial for understanding the outputs of machine learning models and for improving the transparency of the AI pipeline."
"The influence function provides a rigorous framework for evaluating the impact of each training data point on model predictions."
"DataInf is based on an easy-to-compute closed-form expression, leading to better computational and memory complexities than existing state-of-the-art influence computation algorithms."