本研究では、化学分野における大規模言語モデルの性能向上を目的として、SMolInstruct と呼ばれる大規模で包括的な高品質な教示学習データセットを構築した。このデータセットには、化学名称変換、分子特性予測、分子説明生成、化学反応予測など、14種類の化学関連タスクが含まれており、合計300万以上のサンプルが収録されている。
データの収集にあたっては、化学的に無効なSMILES表記の除去や、誤情報の修正など、厳格な品質管理を行った。また、関連するタスク間でデータの重複を排除するなど、適切なデータ分割を行った。
さらに、SMolInstructを用いて、Galactica、Llama 2、Code Llama、Mistralの4つの大規模言語モデルを fine-tuning し、LlaSMolと呼ばれる化学分野向けの大規模言語モデルを開発した。実験の結果、LlaSMolモデルは、GPT-4やClaude 3 Opusなどの最先端の大規模言語モデルを大幅に凌駕し、多くの化学タスクで高い性能を発揮することが示された。
特に、LlaSMolMistralモデルが最も優れた性能を示したことから、大規模言語モデルの基底モデルの選択が化学分野での性能に大きな影響を及ぼすことが明らかになった。一方で、LlaSMolモデルは、特定の化学タスク向けに設計された最先端モデルには及ばないものの、パラメータ数の0.58%しか fine-tuning していないにもかかわらず、その性能は大幅に向上しており、さらなる改善の余地があることが示唆された。
Egy másik nyelvre
a forrásanyagból
arxiv.org
Mélyebb kérdések