OneNetは、U-Netアーキテクチャの計算コストを削減しながらセマンティックセグメンテーションの精度を維持する、チャネル単位の1D畳み込みとピクセルシャッフルを用いた新しいエンコーダ・デコーダ構造である。
複素解析のコーシー積分定理に基づく新しいニューラルネットワークであるXNetは、偏微分方程式の解法や画像分類タスクにおいて、従来のMLPやKANを超える性能を示している。
グラフニューラルネットワーク(GNN)は、材料の原子構造とその特性間の複雑な関係を捉えることができるため、材料の構造的および電子的特性を予測するための強力なツールである。
大規模言語モデル(LLM)のメモリフットプリントと計算コストを削減するために、重み行列の低ランク構造を利用した新しい圧縮アルゴリズム「CALDERA」が提案されている。
事前学習済みモデルの自己注意機構は、専門家の混合(MoE)アーキテクチャとして解釈できるという新たな視点を提示し、プロンプトベースの継続学習手法、特にプレフィックスチューニングにおけるプロンプトの有効性について理論的な説明を試みる。さらに、従来の線形ゲーティングの非効率性を指摘し、非線形活性化と残差結合を用いた新規ゲーティング機構「NoRGa」を提案することで、パラメータ効率を維持しながら継続学習のパフォーマンス向上を実現する。
本稿では、従来の保存則に基づく数値計算手法をデータ駆動型フレームワークに統合した、エントロピー安定な保存型フラックス形式ニューラルネットワーク(CFN)を提案する。
GNNトレーニングにおいて、半精度浮動小数点数を効果的に活用することで、従来の単精度浮動小数点数と同等の精度を維持しながら、大幅な高速化と省メモリ化を実現できる。
本稿では、スパース性誘導事前分布と変分推論を用いることで、ベイズニューラルネットワークのモデル圧縮と特徴選択を効率的に行う新しい手法を提案する。
深層学習における複雑な現象(二重降下、グロッキング、線形モード接続性、表形式データへの課題)は、学習中の機能更新を段階的に近似する「テレスコーピングモデル」を用いることで、より深く理解できる可能性がある。
SPikE-SSMは、スパイクベースのニューロンモデルと状態空間モデルを組み合わせることで、従来の手法よりも高速かつ省電力で、長シーケンスデータの学習を可能にする。