이 논문은 음성 기반 개방형 질의 응답 시스템에서 문서 검색 성능 향상을 위한 방법을 제안한다. 기존의 자동 음성 인식(ASR) 모델과 문서 검색기로 구성된 파이프라인 방식은 ASR 모델의 오류가 문서 검색기로 전파되는 문제가 있다. 이를 해결하기 위해 저자들은 ASR 모델이 필요 없는 다중 모달 밀집 검색기를 제안한다. 이 모델은 음성 질문을 직접 처리할 수 있으며, 엔드-투-엔드 방식으로 학습할 수 있다. 실험 결과, 제안 모델은 ASR 오류가 높은 경우 기존 파이프라인 방식보다 우수한 성능을 보였다. 특히 질문에서 중요한 단어가 잘못 인식되는 경우, 제안 모델이 더 강건한 것으로 나타났다. 또한 제안 모델은 ASR 모델이 필요 없어 저자원 언어나 특정 도메인에 적용할 수 있다는 장점이 있다.
翻譯成其他語言
從原文內容
arxiv.org
深入探究