Concepts de base
大規模言語モデル (LLM) は、指示や文脈のわずかな変化に対して、特に意味的に関連する単語の集合を扱う場合に、その頑健性に課題がある。
Résumé
SetLexSemチャレンジ:集合演算を用いた大規模言語モデルの語彙および意味的頑健性の評価
本稿は、大規模言語モデル (LLM) の頑健性を評価するための新しいデータセットであるSetLexSemチャレンジについて論じている研究論文である。
本研究は、LLMが、タスクの難易度や内容の偶発的な変化に対して、どれだけ頑健であるかを評価することを目的とする。
SetLexSemチャレンジは、集合演算タスクと、集合メンバーのタイプ、長さ、頻度、意味的類似性などの様々な要素を体系的に変化させた入力で構成されている。本研究では、7つのLLM (OpenAI GPT-3.5、Anthropic Claude Instant/Haiku/Sonnet、Mistral AI-Large/Small、Meta LLaMa 3 70b) を用いて、SetLexSemチャレンジにおける精度と、そのばらつきを測定した。