本研究では、医療分野のテキストデータに適応した小規模な言語モデルの効率的な開発手法を提案している。
3つの医療データセットを対象に、以下の3つの事前学習手法を検討した:
各手法で事前学習したモデルの性能を、ドキュメント分類タスクで評価した。結果、DeCLUTRによる事前学習モデルが最も優れた性能を示した。一方、メタデータを活用した手法は分類性能は向上しなかったものの、埋め込み空間の特性に興味深い違いが見られた。
全体として、事前学習手法の違いが言語モデルの埋め込み空間に大きな影響を及ぼすことが明らかになった。また、一般ドメインの言語モデルを医療ドメインに適応する際、事前学習による特化が重要であることが示された。本研究の成果は、リソース制限下での医療分野向け小規模言語モデルの効率的な開発に役立つと考えられる。
إلى لغة أخرى
من محتوى المصدر
arxiv.org
الرؤى الأساسية المستخلصة من
by Niall Taylor... في arxiv.org 04-01-2024
https://arxiv.org/pdf/2403.19802.pdfاستفسارات أعمق