医療領域における大規模言語モデル「Gemini」の評価と展望

Large language models 2024年04月11日

3つの要点
✔️ Geminiの概要と応用: Geminiは、マルチモーダル言語モデルであり、医療分野でのテキスト、画像、オーディオ、ビデオなど多様な入力形式から情報を理解し生成する能力を持つ。
✔️ Geminiの評価手法と結果: Geminiは、多岐にわたる医療トピックにおいて堅牢な理解を示す一方で、特に幻覚に関する高い影響を受けやすいことを指摘。
✔️ 将来の展望と課題: Gemini Proの評価が利用可能なAPIに制限されていることや、長文の質問に対する評価が不足していることなど、改善の余地を提示。

Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations
written by Ankit Pal, Malaikannan Sankarasubbu
(Submitted on 10 Feb 2024)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、大規模言語モデルが、人間の言語を理解し生成する能力において、目覚ましい進歩を遂げています。これらの進化は、言語学やコンピュータプログラミングなど、様々な分野でのブレークスルーを促進しています。特にGPT-3やPaLMのようなモデルは、大量のテキストデータを学習することで、複雑な言語パターンを把握します。人工知能技術の急速な発展は、LLMの継続的な向上を促し、専門分野における革新を加速しています。これらの進化は、モデルのサイズやデータ量、計算能力の増加に伴って、段階的に成し遂げられてきました。多くの先進的モデルは、自己教師あり学習技術を駆使し、トランスフォーマー・アーキテクチャを基盤として構築されています。

医学分野における大規模言語モデルの応用は、特に革新的であり、その可能性は無限大です。これらのモデルは、大量の医学文献を解析し、新たな知見を統合することで、医学の世界に新たな洞察をもたらすことが期待されています。研究者たちは、大規模言語モデルが医学の専門知識を補完し、どのようにして医療サービスを強化できるかを積極的に評価しています。

しかし、この新たな技術領域は、有望な機会とともに、重大な課題も提示しています。例えば、大規模言語モデルが医学的知識を専門家レベルで処理できるか、誤った情報を生成するリスクはないかといった疑問です。これらの技術の潜在能力と限界を理解することは、医学分野における言語モデルの責任ある使用に不可欠です。

この論文では、GoogleのGeminiモデルを中心に、医療領域における大規模言語モデルの可能性と課題を調査しています。Geminiは、テキスト、画像、オーディオ、ビデオなど、多様な入力形式から情報を理解し生成することを目指した、最先端のマルチモーダル言語モデルです。この論文では、Geminiの医療領域における強みと限界を明らかにするために、複数のベンチマークテストを用いて、その能力を厳格に評価しています。

この研究は、Geminiが多岐にわたる医療トピックにおいて堅牢な理解を示し、同時に専門的知識が求められる分野での限界も浮き彫りにしています。この研究は、Geminiを含む大規模言語モデルの医療分野への応用に対する深い洞察を提供し、その潜在的な強みと課題を明らかにします。これにより、医療分野におけるAI技術の今後の展望についての議論が促進されることが期待されます。

手法

ここでは、Geminiの構造、性能、そして推論能力の評価方法について紹介しています。Geminiは、最新のマルチモーダルアーキテクチャを採用し、Googleの先進的なTPUハードウェアを駆使して、複雑な分析と推論を可能にする設計です。ここでは、そのアーキテクチャの概要から、医学分野における具体的な応用方法までを紹介しています。

Geminiアーキテクチャ：Geminiは、32,000トークンまでのコンテキストを扱い、テキスト、グラフィック、音声のデータをシームレスに組み合わせることができる、先進的なトランスフォーマーデコーダーに基づくモデルです。このモデルは、信頼性と効率を重視し、ハードウェアの故障やデータの歪みを減少させるよう設計されています。Geminiの推論スキルとそのベンチマークスコアは、マルチモーダルAIの研究に新たな基準を設けました。

医学分野におけるベンチマーク：MultiMedQAは、臨床推論能力を評価するための医療QAデータセットです。USMLEやNEET-PGのような実際の試験を含み、専門分野を超えた知識が求められます。MedQAとMedMCQAは、アメリカとインドの医療ライセンス試験から抽出された質問で、複雑な臨床推論の挑戦を提示しています。PubMedQAは、研究の抄録から洞察を合成し、閉じた領域の推論能力を評価する1,000の質問を含みます。MMLUは、基礎科学知識と医学的理解の統合をテストする、幅広い領域をカバーしています。

特別なベンチマーク: Med-HALTは、「まず、害を及ぼさない」という医学の原則に基づいて設計された、危険な推論傾向を評価するためのベンチマークです。推論の幻覚テスト(RHT)と記憶の幻覚テスト(MHT)を通じて、モデルが論理的に分析し、必要に応じて不確実性を認める能力を評価しています。

視覚的質問応答（VQA）ベンチマークは、Geminiのマルチモーダル推論能力を評価するために、New England Journal of Medicine（NEJM）イメージチャレンジからの100の多肢選択問題を用いて、画像理解、医学知識の想起、ステップバイステップの推論の3つの能力を試験しています。

以上を使用しは、Geminiが如何にしてその革新的なアプローチで医学分野における複雑な問題を解決しているかを具体的に示しています。これらのテストを通じて、Geminiの推論能力と、特に医学情報の取り扱いにおけるその精度と信頼性が実証されています。

実験結果

ここでは、GeminiがMultiMedQA、Med-HALT幻覚、医療ビジュアルクエスチョンアンサリング（VQA）ベンチマークでどれだけ成績を収めたかを分析し、他のモデルとの比較も行なっています。

まずMultiMedQAベンチマークにおけるGeminiのパフォーマンスについてです。下図は、Med-PaLM 2、GPT-4、およびGemini ProのMultiMedQAスコアを表しています。Gemini ProはMultiMedQAベンチマークで、さまざまな医学的なトピックで注目すべき成績を収めまています。

また、下表は、Gemini Proの結果をFlan-PaLM、Med-PaLM、Med-PaLM 2の結果と比較しています。Gemini Proは、 MedQA（USMLE）データセットでは、Gemini Proが67.0％のスコアを出しましたが、これはMedPA-LM 2の最高スコア（最大86.5％）や、86.1％のGPT-4（5-shot）に及びませんでした。この大きな差は、Gemini Proが複雑で多段階の米国医師国家試験形式の質問を処理する能力を向上させる余地があることを示しています。

また、MedMCQAデータセットは幅広い範囲を網羅しており、特に難しい環境です。Gemini ProはMedMCQAデータセットで62.2％のスコアを達成しましたが、これはリーダーボード上の他のモデルと比較すると大きな差があります。たとえば、Med-PALM 2のERおよびbestの両方が72.3％のスコアを出しており、この文脈でより強力な理解力と処理能力を示しています。さらに、baseと5-shotのバージョンを含むGPT-4モデルは、72.4％から73.7％のスコアで優れたパフォーマンスを示しています。これらの結果は、GeminiのMedMCQAデータセットでの成績向上のためのいくつかの改善余地を示唆しています。

また、PubMedQAデータセットでは、はい/いいえ/たぶんの回答形式を採用し、2値および3値の質問に対する独自の課題が生じます。Gemini Proは、このデータセットで70.7％のスコアを獲得しましたが、最高スコアはMed-PaLM 2の81.8％と、5ショットのGPT-4-baseの80.4％でした。このパフォーマンスの差異は、Gemini Proが2値および3値の回答を処理する能力、および科学的文書と臨床領域からの質問を処理する能力の向上が必要であることを示唆しています。

さらに、MMLU臨床知識データセットにおいて、Gemini Proの性能は、Med-PaLM 2や5-shotのGPT-4などの最先端モデルと比較して劣っています。Gemini Proの全体のテストセットの正確度は78.6％でしたが、これはMed-PaLM 2と5-shotのGPT-4-baseの両方が88.7％を達成したのとは大きく異なります。特定のサブドメインを分析しても、この傾向は持続していました。医学遺伝学の評価では、Gemini Proは81.8％の正確度を示しましたが、5-shotのGPT-4-baseは97.0％の正解率を達成しています。同様に、解剖学の評価では、Gemini Proは76.9％の正確度でしたが、5-shotのGPT-4-baseの85.2％よりも8％以上低かったです。プロフェッショナル医学や大学の生物学など他のカテゴリでも同様のパフォーマンスの差が見られ、Gemini Proはトップモデルとの競争に追いつけませんでした。さらに、大学の医学のカテゴリでは、Gemini Proの79.3％というスコアは合理的な能力を示しましたが、Med-PaLM 2やGPT-4のバリエーションのようなモデルのトップパフォーマンスには及びませんでした。これらの結果は、Gemini Proが医療データを処理するための強力な基本能力を持っていること、そしてそのアーキテクチャには可能性があることを示唆しています。しかし、Med-PaLM 2やGPT-4などのモデルの最高のパフォーマンスを見ると、改善の余地があることが明らかです。

また、オープンソースの大規模言語モデルとの比較分析を行なっています。ここでは、Llama-2-70b、Mistral-7bv0.1、Mixtral-8x7b-v0.1、Yi-34b、Zephyr-7b-beta、Qwen-72b、およびMeditron-70bなどのさまざまな最先端モデルを使用して、医療推論タスク全体でのゼロショットおよびフューショットの能力を評価しました。MultiMedQA Benchmarkを用いた標準化された分析を通じて、公開されているL大規模言語モデルの能力と限界を定量化しました。下図は、それぞれゼロショットとフューショットのパフォーマンスを示しています。

（ゼロショットのパフォーマンス）

（フューショットのパフォーマンス）

データセット間のパフォーマンス：多くのオープンソースモデルをさまざまな医療データセットでテストし、それらのフューショットおよびゼロショットの能力を評価しました。5-shot学習ベンチマークでは、Qwen-72bが一貫して優れた結果を示しました。その柔軟性と少数の良い例から知識を吸収する能力が、特定の医療知識領域における幅広いAIの能力と特定の医療専門知識の微妙な要件のギャップを埋めることを示しています。

ゼロショット対フューショットプロンプティング：ゼロショットとフューショット学習の結果を比較することで、例に基づくトレーニングがモデルのパフォーマンスに与える重要性が明らかになりました。Yi-34bやQwen-72bなどの大規模言語モデルは、わずかな例を導入するだけで顕著なパフォーマンス向上が見られました。この結果は、特に医学などの専門分野では、例に基づく学習がモデルの精度と推論能力を向上させる重要な役割を果たすことを示しています。

モデル固有の洞察：評価の結果、各モデルがさまざまな医療質問タイプとデータセット全体で独自の強みと弱点を示しました。Gemini Proは複数のデータセットで一貫したパフォーマンスを示し、異なる状況に適用する強力な能力を持っていますが、特に特定の領域ではYi-34bのようなモデルほど効果的ではありませんでした。一方、Mistral-7b-v0.1のようなモデルはPubMedQAデータセットで大きな潜在能力を示し、科学論文からの分析と推論を効果的に行うことができます。さらに、Mixtral-8x7b-v0.1はMMLU臨床知識とMMLU大学生物学で特に優れたパフォーマンスを示し、複雑な医学情報を吸収する能力を示しました。Qwen-72bの能力は多くの種類の医学的質問を処理する強力なものであり、事前の例が必要ありません。モデルのMMLU大学生物学データセットでのパフォーマンスは他に類を見ないものであり、93.75％の正確度を示しており、複雑な生物学的概念を十分に理解しています。

まとめ

この論文では、Geminiの能力について包括的なベンチマークを提供しましたが、将来の探求にはいくつかの制限があります。まず第一に、Gemini Proの評価は利用可能なAPIに制限されており、Gemini Ultraのより高度な機能を活用していません。今後の研究では、Gemini UltraのAPIを活用し、より深い洞察を得ることが期待されます。

さらに、長文の質問に対する評価が含まれていない点も制限の一つです。これはMultiMedQAのコンテキストで重要な側面であり、将来の研究でこの領域に拡張されるべきです。また、リアルタイムデータや検索拡張生成（RAG）などの高度な技術の活用も、モデルのパフォーマンス向上につながる可能性があります。

VQAタスクでは、比較的小規模なサンプルを使用しており、将来の研究ではより大規模なデータセットでの検討が必要です。これらの制限に対処することで、Geminiの潜在能力を理解し、より洗練された医療応用のAIツールの開発に貢献できると考えられます。

また、この研究では、GoogleのGeminiを医療領域の複数のベンチマークで評価しました。Geminiはさまざまな医学的なテーマに理解を示していますが、一部の分野で他の先導的なモデルに比べて不足していることがわかりました。特に、幻覚に対する高い影響を受けやすいことが指摘され、信頼性と信頼性の向上が重要です。この研究は、医学におけるマルチモーダルモデルの評価を先駆けて行い、将来の開発を促進するための公開ツールを提供しています。最終的に、AIは人間の臨床的判断と共感を置き換えることはできませんが、慎重に設計されたAI支援は専門知識を向上させ、医学の使命である治療、奉仕をサポートできるようになるでしょう。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。