WeSep은 유연한 화자 모델링, 온라인 데이터 시뮬레이션, 대규모 데이터셋 처리 등의 기능을 제공하는 화자 추출 도구이다.
SongTrans 모델은 노래 가사와 음표를 동시에 전사하고 정렬할 수 있는 통합 모델이다.
본 논문은 기존의 판별적 접근 방식을 벗어나 생성 모델 기반의 대상 화자 음성 활동 탐지 기법을 제안한다. 생성 모델인 유동 매칭 알고리즘을 기존의 Seq2Seq-TSVAD 시스템에 적용하여 성능을 향상시켰다.
멜-로포머는 멜 대역 프로젝션 모듈과 주파수와 시간 차원을 별도의 시퀀스로 모델링하는 RoPE 트랜스포머를 특징으로 하며, 보컬 분리와 보컬 멜로디 전사 작업에서 최신 성능을 달성한다.
본 논문은 일반적인 대규모 사전 학습 모델을 음성 감정 인식 작업에 맞춰 최적화하여 효과적이고 간단한 사전 학습 모델 Vesper를 제안한다.
화자 프로파일 오류에 강인한 대상 화자 음성 활동 탐지 모델 PET-TSVAD를 제안한다. 기존 TS-VAD 모델의 구조적 한계와 훈련 데이터 불일치 문제를 해결하기 위해, 추가적인 가상 화자 프로파일을 도입하고 다양한 클러스터링 알고리즘을 활용하여 모델을 훈련한다.
음성 신호 처리에서 푸리에 변환과 웨이블릿 변환은 중요한 신호 분해 방법이며, 이를 통해 음성 처리 기계 학습 모델의 복잡도를 낮출 수 있다.
SNN 기반의 sVAD 모델은 잡음에 강하고 저전력 및 가벼운 특징을 가지며 음성 활동 감지에 탁월한 성능을 제공합니다.
Sinc-convolution은 음성 개선에서 중요한 주파수 구성 요소를 탐색하고 해석 가능성을 제공합니다.