핵심 개념
提案するESCは、クロススケール残差ベクトル量子化と効率的な変換器ブロックを組み合わせることで、高品質な音声圧縮を実現しつつ、計算コストを大幅に削減している。
초록
本論文では、効率的な音声符号化器ESCを提案している。ESCは以下の特徴を持つ:
- クロススケール残差ベクトル量子化(CS-RVQ)を採用し、コース-ファイン方式でデコーディングを行うことで、高品質な音声圧縮を実現している。
- 従来の畳み込みブロックではなく、効率的なSwin Transformerブロックを使用することで、パラメータ数を大幅に削減している。
- コードブック崩壊を抑制するために、事前学習段階を導入した学習手法を提案している。
- 実験の結果、提案手法は既存の音声符号化器と比べて、同等の音質を維持しつつ、大幅な計算コスト削減を実現できることが示された。
통계
提案手法ESCは、従来手法のDAC(Descript's Audio Codec)と比べて、モデルサイズが9倍小さく、CPUでの符号化/復号化速度が2倍/11倍高速である。
GPUでの処理速度も、DAC と比べて遜色ない。
인용구
"ESC attains double the compression ratio of the original TFNet-CSVQ described in [18], while maintaining comparable reconstruction quality to DAC, which is currently recognized as the state-of-the-art in high-fidelity audio codecs."
"Extensive results show that ESC can achieve high audio quality with much lower complexity, which is a prospective alternative in place of existing codecs."