本研究は、大規模言語モデル(LLM)の論理推論能力を体系的に評価することを目的としている。
まず、提案するLogicBenchデータセットは、命題論理、一階述語論理、非単調推論の25種類の推論パターンを網羅している。これにより、LLMの論理推論能力を包括的に評価することができる。
データセットの作成では、まず多様な概念を含む自然言語文を生成し、次にそれらを用いて論理的な文脈と質問を作成する。最後に、2つのタスク(二値質問応答、多肢選択)のデータを生成する。
実験では、GPT-4、ChatGPT、Gemini、Llama-2、Mistralなどの代表的なLLMを評価した。結果、これらのモデルは複雑な推論や否定を含む推論に苦戦しており、文脈情報を十分に活用できないことが明らかになった。
このように、LogicBenchを用いた評価により、LLMの論理推論能力の課題が明らかになった。今後、本研究の知見を活かし、LLMの論理推論能力の向上につなげていくことが期待される。
toiselle kielelle
lähdeaineistosta
arxiv.org
Tärkeimmät oivallukset
by Mihir Parmar... klo arxiv.org 04-25-2024
https://arxiv.org/pdf/2404.15522.pdfSyvällisempiä Kysymyksiä