מושגי ליבה
深いワイド残差ネットワークの一般化能力を向上させるために、適切なスケーリングファクター(α)を特定することが重要です。
תקציר
本論文では、深い残差ニューラルネットワーク(ResNets)における適切なスケーリングファクター(α)の重要性に焦点を当てています。RNTK(Residual Neural Tangent Kernel)を使用して、αが定数である場合やLに応じて減少する場合の一般化エラーを評価しました。シミュレーション研究では、MNIST、CIFAR10、CIFAR100などの実際の分類タスクで理論的結果を裏付けました。これらの結果は、αがLに応じて急速に減少する場合、一般化性能が向上することを示しています。
סטטיסטיקה
αが定数である場合、RNTKの大きなL限界は定数カーネルに収束します。
α = L^-γ(0 ≤ γ < 1/2)の場合、RNTKはより良い一般化エラー率を持ちます。
γ ∈ (1/2, 1]の場合、α = L^-γでは最小二乗法カーネル回帰が最小値率を達成します。
ציטוטים
"Even if we allow α to decrease with increasing depth L, the degeneration phenomenon may still occur."
"Kernel regression with deep RNTK with early stopping can achieve the minimax rate provided that the target regression function falls in the reproducing kernel Hilbert space associated with the infinite-depth RNTK."
"Our simulation studies on synthetic data and real classification tasks such as MNIST, CIFAR10 and CIFAR100 support our theoretical criteria for choosing α."