Core Concepts
大規模言語モデルを活用し、膨大な科学文献から自動的に材料情報を抽出し、構造化された機能性材料知識グラフを構築する。
Abstract
本研究では、大規模言語モデルを活用して、材料科学分野の膨大な科学文献から自動的に材料情報を抽出し、構造化された機能性材料知識グラフ(FMKG)を構築した。具体的には以下の取り組みを行った:
- 材料専門家による9つのラベル(名称、化学式、略語、構造/相、特性、記述子、合成、キャラクタリゼーション、用途)の手動アノテーションを行い、LLMの学習データを準備した。
- 細かいチューニングを施したLLMを用いて、高精度な名称抽出(NER)、関係抽出(RE)、エンティティ解決(ER)を実現した。
- ERの精度向上のため、ChemDataExtractor、mat2vec、クラスタリングなどの手法を組み合わせて、エンティティの標準化を行った。
- 抽出した構造化情報をトリプルとして表現し、DOIと紐づけることで、情報の出典を明確にしたFMKGを構築した。
- FMKGには162,605個のノードと731,772個の関係が含まれ、バッテリー、触媒、太陽電池などの機能性材料に関する豊富な知見が蓄積されている。
本研究は、大規模言語モデルと自然言語処理技術を活用し、材料科学分野の知識を効率的に構造化したものであり、材料研究の高度化に寄与することが期待される。また、本手法は他の専門分野にも応用可能であり、ドメイン特化型の知識グラフ構築に貢献できる。
Stats
材料分野の論文150,000件の抄録から抽出
FMKGには162,605個のノードと731,772個の関係が含まれる
Quotes
"大規模言語モデルを活用し、膨大な科学文献から自動的に材料情報を抽出し、構造化された機能性材料知識グラフを構築する。"
"本研究は、大規模言語モデルと自然言語処理技術を活用し、材料科学分野の知識を効率的に構造化したものであり、材料研究の高度化に寄与することが期待される。"