核心概念
知的財産分野における課題に対応するため、低コストで標準化された手順を用いて、知的財産指向の大規模言語モデル「PatentGPT」を開発した。
摘要
本報告書では、知的財産分野における大規模言語モデル(LLM)の開発と評価について述べている。
まず、知的財産分野の要件に合わせて、低コストで標準化された手順を用いてPatentGPTモデルを開発した。特に以下の点に注力した:
- 多言語(英語、中国語)のプリトレーニングデータの収集と前処理
- 知的財産関連のタスクに特化したプリトレーニングと2段階のファインチューニング
- 人間の嗜好に合わせるためのSFTとRLHFの適用
次に、知的財産分野に特化したベンチマーク「PatentBench」を提案し、PatentGPTモデルの性能を評価した。その結果、PatentGPTモデルはGPT-4を上回る知的財産分野の性能を示した。特に、特許試験に合格するレベルの成績を収めた。
さらに、SMoEアーキテクチャを採用したPatentGPT-1.0-MoEモデルは、長文処理タスクにおいて優れたコストパフォーマンス比を示した。これは、知的財産分野における大規模言語モデルの実用化に向けて重要な知見となる。
統計資料
特許試験の合格点は60点であるが、PatentGPT-1.0-Denseは65点、PatentGPT-1.0-MoEは60点を獲得し、人間専門家レベルの成績を収めた。
PatentGPT-1.0-Denseは、GPT-4-1106-previewよりも2.8点高い69.1点を獲得した。
引述
「知的財産分野におけるLLMの適用には、専門知識の必要性、プライバシー保護、極端に長い文章の処理といった課題がある。」
「PatentGPTモデルは、知的財産分野の性能がGPT-4を上回り、特許試験に合格するレベルの成績を収めた。」
「SMoEアーキテクチャを採用したPatentGPT-1.0-MoEは、長文処理タスクにおいて優れたコストパフォーマンス比を示した。」