医療分野における新しいオープンソースの大規模言語モデル「Me-LLaMA」

Large language models 2024年11月05日

3つの要点
✔️ 幅広い医療知識を持つ新しい大規模言語モデル「Me-LLaMA」を開発
✔️ 継続的な事前学習データ、指示調整データ、評価ベンチマークMIBEを含む包括的な大規模データセットを提案
✔️ 既存の医療向け大規模言語モデルにおける破滅忘却問題を調査、Me-LLaMAモデルが知識を保持し、優れた性能を維持

Me LLaMA: Foundation Large Language Models for Medical Applications
written by Qianqian Xie, Qingyu Chen, Aokun Chen, Cheng Peng, Yan Hu, Fongci Lin, Xueqing Peng, Jimin Huang, Jeffrey Zhang, Vipina Keloth, Xinyu Zhou, Huan He, Lucila Ohno-Machado, Yonghui Wu, Hua Xu, Jiang Bian
(Submitted on 20 Feb 2024 (v1))
Comments: 21 pages, 3 figures, 8 tables
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

患者治療の品質向上と臨床業務の効率化を目指す中で、大規模言語モデルの登場は大きなブレイクスルーとなっています。大規模言語モデルは数百億のパラメーターを持ち、膨大なテキストデータから学習されており、人間と同等の応答を生成し、複雑なタスクを実行する能力があります。これにより、臨床文書の改善、診断精度の向上、患者治療の管理に大きな可能性を示しています。しかし、ChatGPTやGPT-4などの大規模言語モデルはクローズであり、医療分野で必要とされる特定の状況に合わせたカスタマイズが難しいという問題があります。

この問題に対処するため、近年ではオープンソースの大規模言語モデルの開発が進められています。オープンソースの大規模言語モデルは、無制限のアクセスと、医療分野の特定のニーズに合わせてカスタマイズする柔軟性を提供する有望なソリューションです。例えば、LLaMAモデルは一般領域でのオープンソースの大規模言語モデルの最前線にあり、最先端の能力を持っています。しかし、これらのモデルは主に一般領域のデータで学習されているため、正確で信頼性のある医療アプリケーションに必要な専門的な知識が不足しています。

これらの欠点を補うために、バイオメディカルデータを用いてオープンソースの大規模言語モデルを強化することで、医療専用の大規模言語モデルの開発が進められています。しかし、PMC-LLaMAやMeditronのような既存の研究はバイオメディカル領域に焦点を当てており、質問応答（QA）タスクのみを評価しています。臨床データを使用し、臨床タスクを評価した研究は非常に少なく、GatorTronGPTやClinical-LLaMAがその例外です。しかし、GatorTronGPTは指示調整の欠如やモデルとデータサイズの制約があり、Clinical-LLaMAは臨床テキストの事前学習が限られているため、さまざまな臨床現場で大規模言語モデルを完全に活用できていません。さらに、新しい医療データを統合する際に、以前の知識が損なわれる「破滅的忘却」の問題も抱えています。

これらの課題に対処するために、この論文では、LLaMA2モデルを継続的に事前学習し、指示調整を行い、豊富なバイオメディカルおよび臨床データを組み込んだ新しい医療向け大規模言語モデルである「Me-LLaMA」を開発しています。

これにより、医療向け大規模言語モデルの研究のための包括的なデータセットを提供し、また、大規模な事前学習データセットや指示調整データセット、新しい医療評価ベンチマーク（MIBE）も含まれています。

MIBEを使用した評価では、Me-LLaMAモデルは、既存のオープンソースの医療向け大規模言語モデルよりもゼロショット、フューショット、教師あり学習において優れた性能を示しています。タスクごとの指示調整を行うことで、Me-LLaMAモデルは多くのデータセットでChatGPTやGPT-4を上回る成果を達成しています。

手法

Me-LLaMAは、LLaMA2の継続的な事前学習と指示調整を通じて開発されています。このプロセスには、一般的なデータ、バイオメディカルデータ、および臨床データからなる129Bトークンと214Kの指示調査サンプルが含まれています。

LLaMA2モデルを医療分野に適応させるために、混合継続的事前学習データセットを作成しています。このデータセットは129Bトークンを含み、バイオメディカル文献、臨床ノート、一般分野のデータで構成されています。これにより、ドメイン固有の知識と広範な文脈理解のバランスを取り、破滅的忘却を軽減します。

バイオメディカル文献
- PubMed CentralとPubMed Abstractsから取得した広範なバイオメディカル文献コレクションを含んでいます。
臨床ノート
- 実際の臨床シナリオと推論を反映するために、MIMIC-III、MIMIC-IV、MIMIC-CXRからの匿名化されたフリーテキスト臨床ノートを使用しています。
一般分野データ
- 破滅的忘却を防ぐために、RedPajamaデータセットからのサブセットを含め、LLaMAの事前学習データを再現しています。バイオメディカル、臨床、一般分野データの比率は15:1:4で、医療分野に強い焦点を当てつつ、一般的な知識も取り入れています。

また、モデルの指示に従う能力と多様な医療タスクへの一般化を強化するため、新しい医療指示チューニングデータセットを開発しています。このデータセットには、バイオメディカル文献、臨床ノート、臨床ガイドライン、wikidoc、知識グラフ、一般分野データなど、さまざまなデータソースが含まれています。データセットに含まれる多様なタスクは、モデルの医療情報を正確かつ文脈的に処理・応答する能力を洗練することを目的としています。最終的に214,595の高品質サンプルが含まれ、ノイズ（null入力や応答など）は除去されています。

さらに、既存の医療分野の研究は主にQAタスクの評価に焦点を当てていますが、この論文では、新しい広範な評価ベンチマークを紹介し、QA、固有表現抽出（NER）、関係抽出（RE）、分類（CF）、テキスト要約（TS）、自然言語推論（NLI）の6つのタスクを網羅しています。これらのタスクは、バイオメディカルおよび臨床分野から精選された12のデータセットを含み、評価の幅広いスペクトルを提供します。また、一般的なドメイン知識の忘却問題を評価するために、一般ドメインQAデータMMLUも含めています。

また、インコンテキスト学習（ゼロショットおよびフューショットの学習）と教師あり学習の2つの評価設定で評価し、ベースラインモデルと比較して、さまざまなタスクに対する性能と一般化能力を評価しています。

実験結果

下表は、MIBEのさまざまなタスクにおけるMe-LLaMAチャットモデルとベースラインモデルのゼロショットの性能を比較したものです。比較対象には、LLaMA2チャットモデルなど、指示に従う能力を強化するためのインストラクションファインチューニングが施された大規模言語モデルが含まれています。

13Bパラメータを持つモデルの中で、Me-LLaMA 13B-chatはほぼすべての12のデータセットでLLaMA2 13B-chat、PMC-LLaMA-chat、Medalpaca 13Bを上回りました。唯一の例外は、臨床質問応答（QA）データセットであるEmrQAで、わずかな精度低下が見られました。さらに、Me-LLaMAは12のデータセット中9つでAlpaCare-13Bを上回る成績を示しました。

70Bパラメータを持つモデルの中で、Me-LLaMA 70B-chatは12のデータセットすべてでMeditron 70Bを一貫して上回り、11のデータセットでLLaMA2-70B-chatを上回りました。特に、PubMedQAデータセットでは、Me-LLaMA 70B-chatがLLaMA2-70B-chatモデルに対して精度で約10%、Macro-F1スコアで8.0%の優位性を示しました。さらに、Me-LLaMA 13B-chatは、パラメータサイズが大幅に大きいLLaMA2-70B-chatモデルに対しても、12のデータセット中6つ（PubMedQA、MedQA、MedMCQA、2013 DDI、HoC、MIMIC-CXRを含む）で優れた性能を示し、他の3つのデータセット（EmrQA、MTsample、MedNLIを含む）でも競争力を持っています。

また下図は、現在の最先端でる医療の大規模言語モデルMeditron 70BとMe-LLaMAモデルのフューショットの性能を比較しています。比較は、PubMedのRouge-Lスコア、3つのQAデータセットの精度スコア、およびその他のデータセットのF1スコアに基づいています。Meditronの指示に従う能力の限界を考慮し、性能比較にはフューショットを採用し、要約データセットには1ショット方法を、他のデータセットには5ショット方法を使用しました。結果として、Me-LLaMAモデルは12のデータセット中11（PubMedQAを除く）で優れた性能を達成しています。

下表は、Me-LLaMA 13/70B基盤モデルと他のオープンソース基盤の大規模言語モデルの教師ありの設定における性能を比較しています。Me-LLaMA 13Bモデルは、12のデータセット中11で同等サイズの医療基盤モデルPMC-LLaMA 13Bを上回り、LLaMA2 13Bを10のデータセット（DDIとHoCを除く）で上回りました。さらに、Me-LLaMA 13Bモデルは、LLaMA2 70BおよびMeditron 70Bに対しても、12のデータセット中8つ（PubMedQA、EmrQA、2010 i2b2、MTsample、PubMed、MIMIC-CXR、BioNLI、MedNLI）で競争力を持っています。70Bモデルについては、Me-LLaMA 70BがLLaMA2 70BおよびMeditron 70Bと比較して、12のデータセット中9つで最高の性能を達成しました（MedMCQA、2010 i2b2、PubMedを除く）。

さらに下図では、ゼロショットおよびタスク特定のインストラクションファインチューニング設定におけるMe-LLaMAモデルとChatGPTおよびGPT-4の性能を比較しています。患者情報を含む臨床データセットをChatGPTやGPT-4に送信することがプライバシー上の懸念から制限されているため、これらの制限がない8つのデータセット（PubMedQA、MedQA、MedMCQA、HoC、MTsample、PubMed、BioNLI、2013 DDI）で比較を行いました。ChatGPTおよびGPT-4の3つのQAデータセットの結果はOpenAIの論文から参照しています。

比較では、要約データセットPubMedのRouge-127スコア、3つのQAデータセットの精度スコア、およびその他のデータセットのMacro-F1スコアを使用しています。タスク特定のインストラクションチューニングにより、Me-LLaMAモデルは8つのデータセット中7つ（PubMedを除く）でChatGPTを上回り、5つのデータセット（PubMedQA、HoC、MTsample、BioNLI、2013 DDI）でGPT-4を上回っています。ゼロショット設定では、Me-LLaMAモデルは5つのデータセット（PubMedQA、MedQA、MedMCQA、BioNLI、2013 DDI）でChatGPTを上回りましたが、GPT-4と比較すると7つのデータセットで劣っています。

また、継続的な事前学習とインストラクションチューニングの影響についても調査しています。下表は、継続的な事前学習とインストラクションチューニングが大規模言語モデルのゼロショットの性能に与える影響を比較しています。

具体的には、Me-LLaMA 13/70BとそのバックボーンモデルであるLLaMA2 13/70Bのゼロショット設定での違いに焦点を当て、継続的な事前学習の利点を示しています。さらに、インストラクションチューニングを受けたチャット最適化バージョンであるMe-LLaMA-13/70B-chatとの比較も行い、ゼロショットコンテキストでのインストラクションチューニングの利点を強調しています。

全体的に見ると、継続的な事前学習とインストラクションチューニングの両方が、モデルのゼロショット能力を大幅に向上させることがわかります。例えば、Me-LLaMA 13Bモデルは、LLaMA2 13Bモデルと比較して、さまざまなデータセットで0.5%から13.1%の性能向上を示しています。これは、継続的な事前学習の利点を示しています。一方、インストラクションチューニングは、継続的な事前学習に比べてさらに大きなゼロショットの性能の向上をもたらしています。

具体的には、Me-LLaMA-70B-chatモデルは、インストラクションチューニングを受けていないMe-LLaMA 70B基盤モデルに対して、3.7%から41.9%の性能向上を示しました。これにより、インストラクションチューニングが、教師ありでのファインチューニングや事前の例がなくても、学習タスクにおいて文脈を活用するモデルの能力を高める重要な役割を果たしていることが示唆されます。

さらに、カタストロフィックフォーゲッティング問題についても調査しています。既存の医療向け大規模言語モデルを比較し、カタストロフィックフォーゲッティング（新しいデータを学ぶ際に古い知識を忘れる現象）への脆弱性を評価しています。この問題は、一般領域と医療領域の両方からの正確で一貫した知識を維持する必要がある医療向け大規模言語モデルにとって特に重要です。

下表は、一般領域データMMLU28および医療データMedQAに対して、継続的な事前学習後のさまざまな医療向け大規模言語モデルとそのバックボーンモデルの性能を比較しています。

Me-LLaMAモデルは、一般領域と医療領域の両方で性能が向上しています。一方、いくつかのモデルは医療データでのみ改善を示し、他のモデルは医療データを使用した継続的な事前学習後に両領域で性能の低下しています。具体的には、Meditron 7/70BはMedQAデータセットで改善を示しましたが、MMLUデータセットでは低下しています。PMC-LLaMA 7/13Bは両データセットで性能が低下しています。これらの結果は、知識の喪失を防ぐために、学習中に一般データと医療データのバランスを取る重要性を強調していると言えます。

まとめ

この論文では、新しい医療向け大規模言語モデル「Me-LLaMA 13B」と「Me-LLaMA 70B」、「Me-LLaMA-13/70B-chat」を開発しています。これらのモデルは、LLaMA2モデルを継続的に事前学習し、指示調整を行うことで開発されています。使用されたデータは、広範なバイオメディカル、臨床、一般領域のデータを含んでいます。

評価の結果、Me-LLaMAモデルは様々な学習シナリオで既存のオープンソースの医療向け大規模言語モデルを上回り、ChatGPTやGPT-4などの主要な商業モデルと競争力のある結果を達成しています。この研究は、より正確で信頼性が高く包括的な医療向け大規模言語モデルの道を開き、医療アプリケーションにおける大規模言語モデルの可能性を強調しています。

しかし、ゼロショット設定では、提案モデルを含む医療向け大規模言語モデルが特定のタスク（例：NERやRE）で低い性能を示すことがわかりました。これは、モデルの応答が期待される簡潔さと正確さを欠いていることが原因と考えられます。例えば、Me-LLaMA-13B-chatのゼロショット出力では、複数のタスクで課題が生じ、マルチラベル分類では冗長な文を生成することが多くありました。また、NLIタスクでは、不正確な数値応答や無関係な文字列が含まれていました。

教師ありの微調整設定では、Me-LLaMAモデルは大規模言語モデル以前のSOTAと比較して、多くのタスクで優れた、または同等の性能を示しました。しかし、PubMedの要約データセットでは、事前学習された言語モデル（例えばBART）に基づく手法に比べて性能が著しく低いことがわかりました。この短所はデータセット内のゴールドスタンダード要約の質が低いためであり、これによりモデル生成の要約の質が低下し、評価メトリクスに偏りが生じます。

モデル開発中、事前学習およびインストラクションチューニングの段階でのデータソースの多様性が重要であることを理解し、」広範なソースから綿密にキュレーションされた高品質なデータが、モデルの性能の基盤を形成し、モデルが広範な医療および生物医学の概念を正確に把握できるようにしています。特に、医療と一般ドメインのデータのバランスが重要であり、一般ドメインデータの統合が知識忘却問題を軽減するために重要な役割を果たします。

この論文では、例えば、PMC-LLaMA 13Bモデルのように、医療と一般ドメインのデータの混合比率が19:1の場合、一般および生物医学タスクの両方で性能が低下することが明らかになりました。一方、4:1の比率を採用したモデルは、一般および医療タスクの両方で性能の向上を示しました。これは、最適なデータバランスを見つけるためには慎重な経験的分析が必要であることを示唆しています。

大規模言語モデルの事前学習とインストラクションチューニングの間のコストと効果のバランスも重要です。例えば、LLaMA2 70Bモデルの前訓練は非常に資源を消費し、1エポックあたり約160 A100 GPUで700時間を要します。対照的に、インストラクションチューニングは1エポックあたり8 A100 GPUで約70時間しかかからず、事前学習よりもはるかに経済的です。この効率性は、限られたリソースシナリオでのインストラクションチューニングの優先度を示しており、コスト効果の高いモデルの改善の可能性を強調しています。

Me-LLaMAモデルは、13Bおよび70Bのサイズで、ベースおよびチャット最適化バージョンとして提供されており、モデルサイズとリソースの利用可能性のバランスが重要な医療アプリケーションの幅広い範囲を示唆しています。ベースモデルは広範な医療知識を持つ堅牢な基盤を提供し、教師あり微調整を通じて専門的なタスクに適応できます。

一方、チャットバージョンはインストラクションフォロー能力とインコンテキストラーニングに優れており、ゼロショットまたはフューショットの学習シナリオで非常に効果的です。70Bのような大規模モデルは、より深い理解と複雑な推論能力を提供し、包括的な医療分析に理想的です。しかし、これらの展開には大量の計算リソースが必要であり、リソースが限られた設定では課題となります。一方、13Bモデルは、効率と効果のバランスをとった実用的な妥協点を提供し、さまざまなアプリケーションへの可能せ性を広げます。

現在のMe-LLaMAモデルの限界を認識することが重要です。すべての既存の大規模言語モデルと同様に、事実誤認や偏った情報を生成する可能性があります。これを緩和するために、将来的な研究では人間のフィードバックによる強化学習（RLHF）などの方法論を取り入れることが考えられます。

また、現在のトークン処理能力が4096トークンに制限されていることであり、これはLLaMA2モデルから引き継がれた制約です。この制限に対処するためには、モデルの長い文脈を処理する能力を拡張することが含まれます。

今回の研究は、新しい医療向け大規模言語モデルのさらなる発展と実用化に向けた重要なステップと言えます。Me-LLaMAモデルは、医療アプリケーションにおいて大きな可能性を秘めており、その実用性と効果を示すためのさらなる研究が期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。