Core Concepts
본 논문은 한국어와 같이 자원이 부족한 언어에서 효과적인 관점 기반 감성 분석(ABSA)을 수행하기 위해 번역된 벤치마크 데이터와 레이블링 되지 않은 데이터를 활용하는 KPC-cF 프레임워크를 제안합니다.
Abstract
KPC-cF: 말뭉치 필터링을 통한 암시적 특징 정렬을 활용한 관점 기반 감성 분석
본 연구는 한국어 리뷰 데이터를 활용한 관점 기반 감성 분석(ABSA) 시스템 구축에 있어 자원 부족 문제를 해결하고, 실질적인 다국어 ABSA 구현을 위한 효과적인 프레임워크를 제안하는 것을 목표로 합니다.
1단계: 의사 레이블 생성 및 기준 모델 선택
영어 ABSA 벤치마크 데이터를 한국어로 번역한 데이터셋(Kor-SemEval)을 활용하여 다국어 언어 모델(mBERT, XLM-R)을 fine-tuning합니다.
fine-tuning된 모델을 사용하여 실제 한국어 리뷰 데이터(KR3)에 대한 의사 레이블을 생성합니다.
번역된 데이터셋에서 가장 높은 성능을 보이는 모델을 기준 모델로 선택합니다.
2단계: 말뭉치 필터링 및 실제 데이터 평가
의사 레이블이 부여된 KR3 데이터를 암시적 자연어 추론(NLI) 작업으로 변환합니다.
LaBSE 및 MSP 기반 이중 필터링을 적용하여 고품질의 NLI 말뭉치를 구축합니다.
기준 모델을 필터링된 말뭉치를 사용하여 fine-tuning하고, 수동으로 레이블링된 한국어 리뷰 데이터를 통해 성능을 평가합니다.