이 연구는 코드 전환 구어체 음성 인식 성능 향상을 위해 진행되었다. 코드 전환 상황에서 두 언어의 단어가 유사하게 들리는 경우가 많아 언어 식별이 어려운 문제가 있다. 이를 해결하기 위해 변압기 층에 언어 ID를 조건으로 추가하여 언어 특정 매개변수를 도입하고 다중 헤드 어텐션 메커니즘에 설명 가능성을 부여하는 두 가지 방법을 제안했다. 또한 입력 정렬의 연속성을 유지하기 위한 시간 손실 함수를 구현했다.
WER 감소에는 성공하지 못했지만, 음성 데이터만으로 언어를 정확하게 예측할 수 있는 방법을 보여주었다. 언어 ID 예측에 대한 정규화를 위해 시퀀스에서 언어 ID를 임의로 제거하는 방법을 도입했는데, 이를 통해 긴 반복 출력 시퀀스를 잘 정렬할 수 있었다.
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문