본 연구는 크기 및 위상 스펙트럼을 병렬로 명시적으로 향상시키는 새로운 음성 향상 네트워크 MP-SENet을 제안한다. MP-SENet은 변환기 기반 인코더-디코더 구조를 사용한다.
인코더는 입력된 왜곡된 크기 및 위상 스펙트럼을 시간-주파수 표현으로 인코딩한다. 이 표현은 시간 및 주파수 의존성을 교대로 캡처하는 시간-주파수 변환기 블록을 통과한다.
디코더는 크기 마스크 디코더와 위상 디코더로 구성된다. 크기 마스크 디코더는 압축된 크기 스펙트럼을 향상시키고, 위상 디코더는 포장된 위상 스펙트럼을 직접 향상시킨다.
다중 수준 손실 함수가 크기 스펙트럼, 포장된 위상 스펙트럼 및 단시간 복소 스펙트럼에 정의되어 MP-SENet 모델을 공동 학습한다. 또한 메트릭 판별기가 도입되어 이러한 손실과 청각 지각 간의 불완전한 상관관계를 보완한다.
실험 결과, MP-SENet은 음성 제거, 잔향 제거 및 대역폭 확장 작업에서 최신 기술 수준의 성능을 달성했다. 특히 음성 제거 작업에서 MP-SENet은 VoiceBank+DEMAND 데이터셋에서 PESQ 3.60, DNS 챌린지 데이터셋에서 PESQ 3.62를 달성했다. 이는 기존 위상 인식 음성 향상 방법보다 크기-위상 간 보상 효과를 더 완화하여 향상된 음성의 지각적 품질을 높였음을 보여준다.
To Another Language
from source content
arxiv.org
Key Insights Distilled From
by Ye-Xin Lu,Ya... at arxiv.org 04-02-2024
https://arxiv.org/pdf/2308.08926.pdfDeeper Inquiries