核心概念
本論文では、ホログラフィック縮小表現(HRR)の特性を活用したホログラフィックグローバル畳み込みネットワーク(HGConv)を提案する。HGConvは、複雑な畳み込み演算や設計された畳み込みカーネルを必要とせず、パラメータとして定義されたカーネルを通じて特徴のエンコーディングとデコーディングを行う。提案手法は、Microsoft Malware Classification Challenge、Drebin、EMBERのマルウェア分類ベンチマークにおいて新しい最高精度を達成し、さらに長シーケンスにおいても高速な実行時間を実現する。
摘要
本論文では、マルウェア検出における長距離予測タスクに焦点を当てている。マルウェア検出は現実世界への影響が大きく、機械学習の独特な課題を含む興味深い分野である。
まず、既存の長距離手法とベンチマークを調査し、この問題領域には適切ではないことを明らかにした。
次に、ホログラフィック縮小表現(HRR)の特性を活用したホログラフィックグローバル畳み込みネットワーク(HGConv)を提案した。HGConvは、複雑な畳み込み演算や設計された畳み込みカーネルを必要とせず、パラメータとして定義されたカーネルを通じて特徴のエンコーディングとデコーディングを行う。
提案手法は、Microsoft Malware Classification Challenge、Drebin、EMBERのマルウェア分類ベンチマークにおいて新しい最高精度を達成した。さらに、シーケンス長が100,000を超えても高速な実行時間を実現した。
また、一般的に使用されているLong Range Arena(LRA)ベンチマークは、マルウェア分類の性能を予測するのに適切ではないことを示した。これは、ドメイン固有のベンチマークを使用する必要性を示唆している。
统计
マルウェア検出タスクでは、バイナリシーケンスの長距離相互作用や空間的/非空間的局所性が重要な課題となる。
Microsoft Malware Classification Challengeデータセットには、10,868個のサンプルがあり、合計サイズは184GBに及ぶ。
Drebinデータセットには、5,560個のサンプルがあり、合計サイズは16GBに及ぶ。
EMBERデータセットには、800Kのサンプルがあり、合計サイズは1.02TBに及ぶ。
引用
"マルウェア検出は、現実世界への影響が大きく、機械学習の独特な課題を含む興味深い分野である。"
"HGConvは、複雑な畳み込み演算や設計された畳み込みカーネルを必要とせず、パラメータとして定義されたカーネルを通じて特徴のエンコーディングとデコーディングを行う。"
"提案手法は、Microsoft Malware Classification Challenge、Drebin、EMBERのマルウェア分類ベンチマークにおいて新しい最高精度を達成し、さらに長シーケンスにおいても高速な実行時間を実現した。"