本研究は、深層学習モデルの画像分類タスクにおける敵対的攻撃への脆弱性を調査し、防御手法としての防御蒸留の有効性を評価したものである。
まず、Resnext50_32x4d、DenseNet201、VGG19の3つの事前学習済みCNNモデルを用いて、Tiny ImageNetデータセットに対する分類精度を評価した。その結果、Resnext50_32x4dモデルが最も高い精度を示した。
次に、FGSM攻撃とCW攻撃を各モデルに適用し、攻撃強度(εパラメータ)を変化させながら分類精度の変化を調べた。その結果、両攻撃手法によって分類精度が大幅に低下することが分かった。特にCW攻撃に対してはモデルの脆弱性が顕著であった。
さらに、防御蒸留手法を用いて攻撃に対する耐性を高めることを試みた。CIFAR-10データセットを用いて教師モデル(Resnet101)と学生モデル(Resnext50_32x4d)を訓練し、FGSM攻撃に対する防御効果を確認した。その結果、防御蒸留によって攻撃に対する耐性が向上することが示された。しかし、CW攻撃に対しては防御蒸留の効果が限定的であった。
以上の結果から、深層学習モデルは敵対的攻撃に対して脆弱であり、防御蒸留のような従来の防御手法では高度な攻撃手法に対して十分な防御力を持たないことが明らかになった。今後は、より強力な防御手法の開発が求められる。
翻譯成其他語言
從原文內容
arxiv.org
深入探究