FeruzaSpeechは、ウズベク語の音声認識とテキスト読み上げの技術開発を促進するための、高品質な単一話者の朗読音声コーパスである。
生物学的に妥当な音響特徴量を用いることで、従来の特徴量に比べて高い精度と堅牢性を実現できる。
提案手法は、スピーカークラスタートークンを用いて、複数の認識仮説を生成し、それらを階層的クラスタリングとROVERによって統合することで、重複発話の認識を行う。
ゼロショット音声合成を用いてアクセント音声データを拡張することで、アクセント音声に対する自動音声認識の性能を向上させることができる。
離散トークンと言語モデルを活用したターゲットスピーカー抽出ネットワークTSELMを提案する。TSELMは、WavLMの複数の隠れ層からのトークン化、クロスアテンションとLanguage Modelによる分離、そしてスケーラブルなHiFi-GANによる音声再構築を行う。実験の結果、音声品質に優れ、音声明瞭性においても同等の性能を示すことが分かった。
リアルタイム音声認識では、音声入力を短い断片に分割して処理する必要があり、これが音声認識の精度と遅延に影響を及ぼす。本研究では、異なる音声分割アルゴリズムとASRモデルの組み合わせを評価し、精度と遅延のトレードオフを明らかにする。
連続音声分離と文字起こし支援ダイアライゼーションを組み合わせた会議認識パイプラインを提案し、Libri-CSSデータセットで評価した。TF-GridNetを用いた連続音声分離と、文字起こしの境界情報を活用したダイアライゼーションにより、最先端の会議認識性能を達成した。
Whisperモデルをリアルタイム環境で活用するためのシステムWhispyを提案する。Whispyは低遅延で高精度な音声認識を実現する。
ストリーミング音声認識のためのキャッシュベースの効率的な推論手法を提案し、従来のバッファリングアプローチよりも高精度かつ低遅延を実現する。
提案手法DEVCは、音声の内容、話者の特徴、感情表現を統合的にモデル化し、任意の話者間で表現豊かな声変換を実現する。