이 논문은 대규모 언어 모델(LLM)의 편향성 평가와 완화에 대한 포괄적인 조사를 제공한다.
사회적 편향과 공정성에 대한 개념을 정의하고 확장한다. 편향의 다양한 유형(대표적 해로, 배분적 해로)과 공정성 기준을 제시한다.
편향 평가를 위한 메트릭스 분류 체계를 제안한다. 메트릭스는 임베딩, 확률, 생성 텍스트 기반으로 구분된다. 각 메트릭스의 수학적 정식화와 장단점을 설명한다.
편향 평가를 위한 데이터셋 분류 체계를 제안한다. 데이터셋은 대조 입력과 프롬프트 기반으로 구분되며, 각 데이터셋이 목표로 하는 해로와 대상 집단을 식별한다.
편향 완화 기법에 대한 분류 체계를 제안한다. 완화 기법은 전처리, 학습 중, 추론 중, 후처리 단계로 구분된다. 각 단계별 세부 기법과 장단점을 설명한다.
향후 연구 과제와 과제를 제시한다. 언어 모델 개발의 권력 불균형, 공정성 개념의 강화, 평가 원칙과 표준의 개선, 완화 기법의 확장, 공정성 보장의 이론적 한계 등을 다룬다.
이 조사를 통해 연구자와 실무자들이 사용 사례에 적합한 편향 평가 메트릭스와 데이터셋, 완화 기법을 식별하고 이해할 수 있도록 한다.
Vers une autre langue
à partir du contenu source
arxiv.org
Questions plus approfondies