이 연구는 온라인 정치 토론에서의 입장 탐지 문제를 다룬다. 입장 탐지는 많은 응용 분야에서 중요한 작업이지만, 대량의 레이블링된 데이터가 필요하다는 문제가 있다.
이 연구에서는 두 가지 방법을 제안한다:
합성 데이터를 활용한 미세 조정: 기존 데이터에 합성 데이터를 추가하여 입장 탐지 모델을 미세 조정하면 성능이 향상된다. 이를 통해 특정 질문에 대한 모델의 성능을 높일 수 있다.
합성 데이터 기반 능동 학습(SQBC): 합성 데이터를 오라클로 활용하여 가장 정보가 많은 레이블링되지 않은 샘플을 선택하는 새로운 능동 학습 방법을 제안한다. 이를 통해 수작업 레이블링 노력을 크게 줄이면서도 우수한 성능을 달성할 수 있다.
실험 결과, 두 가지 방법 모두 입장 탐지 성능을 향상시킬 수 있었다. 특히 SQBC를 통해 전체 데이터의 20% 만을 레이블링하면서도 기존 모델보다 우수한 성능을 달성할 수 있었다. 또한 모든 능동 학습 방법에 합성 데이터를 활용하는 것이 성능 향상에 필수적이었다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究