核心概念
PPOで学習したバリューモデルを活用し、Monte-Carlo Tree Searchを用いることで、より好ましいテキストを生成できる。
摘要
本論文では、PPOで学習したポリシーモデルとバリューモデルを組み合わせ、Monte-Carlo Tree Search(MCTS)デコーディングを行うPPO-MCTSを提案している。
- PPOでは、ポリシーモデルと共に、部分出力系列の期待リターンを推定するバリューモデルも学習される。しかし通常はこのバリューモデルが活用されずに捨てられてしまう。
- PPO-MCTSでは、このバリューモデルをMCTSのための評価関数として活用する。これにより、ポリシーモデルだけを使う従来手法に比べ、より好ましい出力を生成できる。
- 4つのテキスト生成タスク(感情制御、有害性低減、知識内省、ヘルプフルで無害なチャットボット)で評価を行い、PPO-MCTSが従来手法を大きく上回る性能を示した。
- バリューモデルの活用と、MCTSアルゴリズムの改良(Q値の初期化など)が、PPO-MCTSの高性能につながっている。
统计
感情制御タスクでは、PPO-MCTSは従来手法に比べ、目標感情を満たす出力の割合が34%高かった。
有害性低減タスクでは、PPO-MCTSは出力の最大有害性を34%低減した。
知識内省タスクでは、PPO-MCTSが生成した知識の有用性が12%向上した。
ヘルプフルで無害なチャットボットタスクでは、PPO-MCTSの出力が5%高い評価を得た。
引用
"PPOで学習したバリューモデルは、部分出力系列を評価するのに適しており、関連するポリシーモデルに特化しているため、ガイド付きデコーディングに適している。"
"PPO-MCTSは、従来の直接サンプリングに比べ、より好ましい出力を生成できることを示した。これは、バリューモデルの活用と、MCTSアルゴリズムの改良によるものである。"