提案するESCは、クロススケール残差ベクトル量子化と効率的な変換器ブロックを組み合わせることで、高品質な音声圧縮を実現しつつ、計算コストを大幅に削減している。
単一チャンネルスピーチ強調システムの処理歪みのうち、特にアーティファクト誤差が自動音声認識性能の大幅な劣化の主な原因であることを明らかにし、アーティファクト誤差を低減する手法によって自動音声認識性能を大幅に向上させることができる。
音声感情認識(SER)の主要な課題の1つは、環境ノイズによる性能低下である。本研究では、事前学習済みの音声強調モジュールを活用し、低レベルの特徴補償と高レベルの表現校正を行うことで、ノイズに強いSERシステムを実現する。
ターゲットスピーカープロファイルのエラーに耐性を持つ新しいスピーカーダイアライゼーションモデルを提案する。従来のモデルでは、プロファイルのエラーに弱いという課題があったが、本手法では疑似スピーカープロファイルを導入し、また学習時のプロファイル生成手法を改善することで、この課題を解決する。
深層生成モデルの品質向上に伴い、録音された音声データと合成された音声データを見分けることが重要になっている。環境音のディープフェイク検出に関する研究は少ないが、本研究では、CLAP音声埋め込みを使った簡単かつ効率的なパイプラインを提案し、DCASE 2023チャレンジのデータセットを用いて評価を行った。