이 연구는 자기 인정 기술 부채(SATD) 식별 및 분류를 위한 데이터셋인 SATDAUG를 소개한다. SATD는 개발자가 코드 내에서 기술적 단축, 우회 방법 또는 임시 솔루션의 존재를 명시적으로 인정하고 문서화하는 기술 부채의 한 형태이다.
기존 SATD 데이터셋은 클래스 불균형 문제를 겪고 있었다. 이를 해결하기 위해 본 연구에서는 AugGPT 기반 텍스트 증강 기법을 사용하여 SATDAUG 데이터셋을 생성했다. SATDAUG는 소스 코드 주석, 이슈 트래커, 풀 리퀘스트, 커밋 메시지 등 다양한 소프트웨어 개발 산출물에서 수집된 데이터로 구성된다.
데이터 증강 결과, SATD 식별 및 분류 작업을 위한 데이터셋의 균형이 크게 개선되었다. 이를 통해 기계 학습 및 딥 러닝 모델의 성능이 향상될 것으로 기대된다. 또한 SATDAUG 데이터셋을 활용하여 기존 연구를 재현하고 개선할 수 있는 기회가 제공된다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Edi Sutoyo,A... at arxiv.org 03-13-2024
https://arxiv.org/pdf/2403.07690.pdfDeeper Inquiries