Centrala begrepp
線形再帰ニューラルネットワーク(LRNN)は、自然言語や長距離モデリングでTransformerと同等のパフォーマンスを達成しつつ、高速並列トレーニングと一定の推論コストを提供する。本研究では、LRNNが正規言語の文法構造などの隠れたルールを学習できるかを調査する。理論的分析から、既存のLRNNには正規言語をモデル化する限界があることが分かった。そこで、入力依存の遷移行列を持つブロック対角型LRNNを提案し、正規言語タスクでの長距離外挿性能を示した。
Sammanfattning
本研究は、線形再帰ニューラルネットワーク(LRNN)の正規言語モデリング能力を調査したものである。
まず、理論的分析から、入力非依存のLRNNでは減算演算を表現できないことを示した。これは、正規言語のモデル化に限界があることを意味する。
そこで、入力依存の遷移行列を持つLRNNを提案した。具体的には、ブロック対角型の遷移行列を採用し、各ブロックの列ノルムを制限することで数値的安定性を確保した。
提案モデルを、Sum、EvenPair、ModArithといった正規言語タスクで評価した。実験の結果、提案モデルが唯一、長距離外挿性能を発揮できることが分かった。一方、既存のLRNNモデルは外挿性能が低いことが確認された。
以上より、入力依存性と十分な表現力が正規言語モデリングに重要であることが示された。
Statistik
入力文字列の長さが訓練時の長さを大幅に超えても、提案モデルは正しい出力を生成できる。
一方、既存のLRNNモデルは長距離外挿性能が低く、訓練時の長さを超えると性能が大幅に劣化する。
Citat
"LRNNsは自然言語モデリングやlong-range モデリングでTransformer並のパフォーマンスを達成しつつ、高速並列トレーニングと一定の推論コストを提供する"
"既存のLRNNには正規言語をモデル化する限界がある"
"提案モデルは正規言語タスクでの長距離外挿性能を発揮できる唯一のLRNNアーキテクチャである"