Główne pojęcia
既存の線形代数演算を使用せず、新しい最適化を可能にするFastKronアルゴリズムによるGPU上での高速なクロネッカー行列行列乗算。
Streszczenie
この記事は、クロネッカー行列乗算(Kron-Matmul)に焦点を当て、既存のアルゴリズムと比較して効率的なFastKronアルゴリズムを紹介しています。FastKronは、線形代数演算に依存せず、新しい最適化手法を導入し、単一および複数のGPUで高速な処理を実現します。このアルゴリズムは、共有メモリバンクの競合を最小限に抑える効率的なデータ移動方法や、連続したスライス乗算を統合することでグローバルメモリアクセスを削減する方法も提供します。
Statystyki
FastKronは既存の実装に比べて1つのGPUでは最大40.7倍、16台のGPUでは7.85倍高速。
クロネッカー行列乗算における効率的な処理が可能。
Cytaty
"Existing implementations miss several Kron-Matmul specific optimizations leading to inefficiencies."
"FastKron's algorithm divides rows of the input matrix into slices and multiplies each slice with all columns of the factor."
"FastKron provides significant performance speedup over state-of-the-art single and multi-GPU Kron-Matmul implementations."