Core Concepts
本論文では、畳み込みニューラルネットワーク(CNN)の3×3 Conv2Dレイヤーの代替として、直交変換(DCT、ハダマード変換、ブロック波形変換)に基づくニューラルネットワーク層を提案する。これらの層は、変換領域での要素ごとの乗算を利用して畳み込みフィルタリング演算を実行し、可変ソフトしきい値層によって非線形性を導入する。提案層は位置依存型かつチャンネル依存型であり、パラメータ数と乗算数を大幅に削減しつつ、ImageNet-1Kの画像分類タスクでRegular ResNetの精度を向上させることができる。さらに、従来のResNetにバッチ正規化層の前に追加レイヤーとして挿入することで、分類精度を向上させることができる。
Abstract
本論文では、畳み込みニューラルネットワーク(CNN)の3×3 Conv2Dレイヤーの代替として、直交変換(DCT、ハダマード変換、ブロック波形変換)に基づくニューラルネットワーク層を提案している。
提案する層の特徴は以下の通り:
- 変換領域での要素ごとの乗算を利用して畳み込みフィルタリング演算を実行
- 可変ソフトしきい値層によって非線形性を導入
- 位置依存型かつチャンネル依存型の特性を持つ
- パラメータ数と乗算数を大幅に削減しつつ、ImageNet-1Kの画像分類タスクでRegular ResNetの精度を向上
さらに、提案層をResNetに追加することで、分類精度をさらに向上させることができる。
具体的な実験結果は以下の通り:
- CIFAR-10データセットでは、3C-DCT-ResNet-20が、パラメータ数を22.64%削減しつつ、ベースラインのResNet-20より0.09%高い精度を達成
- CIFAR-100データセットでは、3C-DCT-ResNet-50が、ベースラインのResNet-50より高い精度を達成
- ImageNet-1Kデータセットでは、3C-DCT-ResNet-50が、ベースラインのResNet-50より0.82%高い精度を達成しつつ、パラメータ数と乗算数を11.5%削減
Stats
3C-DCT-ResNet-20は、ベースラインのResNet-20に比べてパラメータ数を22.64%削減しつつ、0.09%高い精度を達成した。
3C-DCT-ResNet-50は、ベースラインのResNet-50に比べて高い精度を達成した。
3C-DCT-ResNet-50は、ベースラインのResNet-50に比べて、パラメータ数と乗算数を11.5%削減しつつ、0.82%高い精度を達成した。