核心概念
深層学習における音響認識タスクで、スペクトログラムとスカログラムのパフォーマンスを比較しました。
摘要
最近の研究では、短時間フーリエ変換やウェーブレット変換などの周波数特徴抽出が使用されています。本稿では、これら2つの変換タイプであるスペクトログラムとスカログラムの属性を比較しました。異なる機械学習モデルを用いたベンチマーク法よりも優れた性能を示しました。また、STFTはCWTよりも計算コストが低いことが明らかになりました。さらに、バルブの場合を除き、常時系信号ではSTFTが優れた性能を発揮します。
統計資料
スペクトログラム生成に約2.9時間かかります。
スカログラム生成には約109時間かかります。
引述
"音響認識タスクでは、オーディオ信号から得られた特徴は短時間フーリエ変換(STFT)やウェーブレット変換(WT)などで抽出されます。"
"この論文では、STFTとWTの設計を比較することで、相対的に良好なパフォーマンスを達成しました。"
"バルブの場合以外は常時系信号ではSTFTが優れた性能を発揮します。"