المفاهيم الأساسية
大規模言語モデル (LLM) の段階的推論能力を向上させるために、多様な推論パスを考慮し、好ましい分岐を促進しながら、好ましくない分岐を抑制する新しいトレーニングフレームワーク「推論パス最適化 (RPO)」が提案されている。
本論文では、大規模言語モデル (LLM) の段階的推論能力を向上させるための新しいトレーニングフレームワークである「推論パス最適化 (RPO)」が提案されています。
LLMは、指示に従い、段階的に推論を行う能力が飛躍的に向上していますが、複雑な問題になると、依然として推論パスが途絶え、誤った解答を導き出すことがあります。これは、LLMが膨大な解空間の中で、各段階において誤った分岐に陥るリスクを抱えているためです。