ジェイルブレイクの評価には、安全保障違反、情報性、相対的真実性の3つの指標が重要である。これらの指標を組み合わせた評価手法は、従来の手法よりも優れた性能を示す。
長さの違いを調整することで、自動評価メトリックAlpacaEvalの信頼性と堅牢性を高めることができる。
LLMの応答におけるエラーを検出するための新しいベンチマーク「ReaLMistake」を開発した。このベンチマークは、LLMによって生成された応答に含まれる客観的で現実的で多様なエラーを収集することを目的としている。
マルチプルチョイス問題はLLMの能力を正確に測定できない可能性がある。LLMはマルチプルチョイス問題に対して順序依存性を示し、長文生成問題との間に大きな差異がある。