本研究では、ディープフェイク環境音の検出を二値分類問題として扱う。提案手法は、事前学習された音声埋め込みを活用し、簡単なMLP (Multilayer Perceptron) モデルを使って検出を行う。
実験では、VGGish、CLAP、PANNの3種類の音声埋め込みを評価した。その結果、CLAPを使ったMLP (MLP MS-Clap) モデルが最も高い検出精度 (98.02%) を達成した。これは、VGGishモデルよりも10%、PANN系モデルよりも5%高い精度である。
また、検出ミスの分析から、歪み音や不自然な背景音などの特徴が検出器に捉えられていないことが分かった。これらの知見は、ディープフェイク環境音検出の精度向上に役立つと考えられる。
다른 언어로
소스 콘텐츠 기반
arxiv.org
더 깊은 질문