本研究は、医療分野における大規模言語モデル(LLM)の性能を包括的に評価するためのベンチマークを構築しました。ベンチマークには、医療言語の推論、生成、理解の3つのシナリオが含まれ、7つのタスクと13のデータセットが含まれています。
評価では、一般的なLLMと医療特化型LLMの16種類を対象に、ゼロショット学習と少量ショット学習の設定で分析しました。信頼性、包括性、一般化性、堅牢性の5つの指標を用いて評価しました。
結果として以下の知見が得られました:
商用の閉鎖型LLMが、オープンソースの公開LLMよりも全てのタスクとデータセットで優れた性能を示しました。
LLMは、選択肢付きの問題解答タスクでは人間専門家に匹敵する性能を示しましたが、オープンエンドの質問や言語生成、理解タスクでは大幅に劣っていました。
医療特化型LLMは、医療データの推論と理解を改善しますが、要約能力を低下させる可能性があります。
パラメータ数が多いほど、全てのタスク、データセット、指標で性能が向上します。
少量ショット学習は、医療言語の推論と生成タスクの性能を大幅に向上させますが、理解タスクの性能を低下させます。
医療LLMは、一般LLMよりも信頼性の高い回答を提供し、一般化性に優れますが、包括性と堅牢性は劣ります。
全体として、現状のLLMは医療現場での利用に向けて課題が多く残されていることが明らかになりました。本研究の結果は、LLMの医療分野への統合を促進するための示唆を提供します。
Para outro idioma
do conteúdo fonte
arxiv.org
Principais Insights Extraídos De
by Andrew Liu,H... às arxiv.org 05-03-2024
https://arxiv.org/pdf/2405.00716.pdfPerguntas Mais Profundas