最新AI論文をキャッチアップ

診断の精度向上、医療に特化したLLMによる新たな診断支援

診断の精度向上、医療に特化したLLMによる新たな診断支援

Large language models

3つの要点
✔️ 診断や臨床支援において、大規模言語モデルが高精度な回答を提供
✔️ プロンプトの設計が大規模言語モデルの性能に大きく影響を及ぼすことを示唆
✔️ 医療専門家とのインタラクションを通じて大規模言語モデルが有用性を検証

Can LLMs Correct Physicians, Yet? Investigating Effective Interaction Methods in the Medical Domain
written by Burcu Sayin, Pasquale Minervini, Jacopo Staiano, Andrea Passerini
(Submitted on 29 Mar 2024
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

最近の研究によると、医療AIアプリケーションにおける大規模言語モデルの有効性が明らかになっています。診断や臨床支援システムにおいて特にその効果が顕著で、様々な医療問い合わせに対して高精度な回答を提供できることが証明されています(。これらのモデルはプロンプトの設計に敏感であり、適切に設計されたプロンプトを用いることで、医師の誤った応答を効果的に修正することができます。

しかしながら、臨床現場での大規模言語モデルの導入にはまだ課題が残っています。たとえば、複雑なタスクに対応するための高度なプロンプティング技術の必要性が指摘されています。また、既存の研究が大規模言語モデルの単独使用に注目している一方で、実際の医療現場では人間の意思決定者(例えば医師)が最終的な判断を下す必要があります。医師がAIエージェントからの支援を得る場合、その相互作用がどのように機能するかを理解することが、システムの実用性と信頼性を確保する上で極めて重要です。

この論文では、大規模言語モデルが医療分野でどのように有効活用され得るかを深堀りしています。特に、医師が意見を述べた後に大規模言語モデルに質問をさせる設定を取り上げ、専門家の意見にどのように挑戦することなく、質の高い回答を提供できるかを試みています。また、プロンプトの設計が医師の誤りを訂正し、医療的な推論をどう促進するか、さらには医師の入力に基づいてどのように大規模言語モデルを適応させるかを検証しています。

この研究では、第一にGPT4によって生成された、妥当な正解と誤解釈を特徴とするbinary PubMedQAデータセットを導入し、その効果を具体的に示しています。第二に、医療専門家との大規模言語モデルの相互作用を強化するためのプロンプトデザインの重要性を強調し、医師の誤りを訂正し、医療的推論を説明し、医師の入力に基づいて適応し、最終的に大規模言語モデルのパフォーマンスを向上させるその影響を示します。これにより、大規模言語モデルが医療現場でより効果的に機能するための鍵となる洞察を提供しています。 

プロンプトの設計

この論文では、医療分野における質問応答タスクでの大規模言語モデルの効果を検証しています。医師が提供する回答や説明がある場合とない場合の両方で、大規模言語モデルの性能を評価しています。従来の研究では、プロンプトの設計が大規模言語モデルの回答に大きな影響を与えることが明らかになっており、この研究では、実際の医療シナリオを模した複数の学習シナリオと、専門家とのインタラクションを通じてその影響を検証しています。シナリオは以下の通りです。

  • Baseline:医師からの入力が一切ない基本的な質問応答(QA)
  • Case1:医師が「はい/いいえ」で回答し、その正確性に応じて4つの異なるシナリオを実施
    • Case1a: 医師は常に正しい回答。
    • Case1b: 医師は常に誤った回答。
    • Case1c: 医師は必ず「はい」と回答。
    • Case1d: 医師は必ず「いいえ」と回答。
  • Case2:医師が「はい/いいえ」で回答し、テキストの説明が加わえ、その正確性に応じて4つの異なるシナリオを実施
    • Case2a: 医師は常に正しい回答。
    • Case2b: 医師は常に誤った回答。
    • Case2c: 医師は必ず「はい」と回答。
    • Case2d: 医師は必ず「いいえ」と回答。
  • Case3:医師が「はい/いいえ」で回答し、正しい回答をする確率が変動
    • 医師の専門知識の差を模擬的に再現し、異なる確率(70%, 75%, 80%, 85%, 90%, 95%)

下図は、プロンプトのテンプレートを示しています。

例えば、Case1では、最初に下図のように大規模言語モデルに対するタスクの指示を明確にします。

次に、下図のように医師と大規模言語モデルでシミュレーションされた会話を展開します。

これらの会話は、シナリオによって例の順序が異なります。最終的には、特定の質問、文脈、及び医師の回答を含むテスト入力でプロンプトを完結させています。

また、Case2では、下図のようにGPT-4 APIを使用して、各質問に対して正しいまたは誤った説明を生成しています。例えば、Case2aでは医師は常に正しい回答をし、それに基づいてGPT-4が正確な説明を生成します。一方、事例2cでは医師は常に「はい」と回答し、質問の正解が「はい」か「いいえ」かに応じて、GPT-4が合理的に正しいまたは誤った説明を生成します。これにより、医師の説明を模倣することで、実際の医療現場での対話のリアリティを高めます。

 

実験と結果

この論文では、次の問いに答えることを目指しています。

  • Q1:大規模言語モデルは必要に応じて医師の判断を訂正できるか?
  • Q2:大規模言語モデルは自らの回答の根拠を説明できるか?
  • Q3:大規模言語モデルは医師の提供する論拠を基にした回答を訂正できるか?
  • Q4:医師の提供した回答を基にした大規模言語モデルは、自身や医師より優れた性能を発揮できるか?

実験には「PubMedQAデータセット」を使用しています。これはPubMedの抄録から生成された生物医学に関する質問応答データセットで、通常は「はい/いいえ/たぶん」と回答します。今回の実験では、このデータセットを二値形式(「はい」「いいえ」のみ)に変換し、445のテスト例を用意しています。このデータを用いて、GPT-4は各質問に対し合理的な正答と誤答を生成することが求められます。

モデルには、最新のAIモデル「Meditron-7B」、会話型AI「Llama2-7Bチャット」「Mistral7B-Instruct」(Jiang et al., 2023)が使用されています。また、これらの実験は、「Harness Frameworkを介して行われ、そのソースコードはオンラインで公開されています。

プロンプト設計の重要性に関する検証結果です。結果は下表のとおりです。プロンプトの設計が大規模言語モデルのパフォーマンスに大きな影響を与えています。特に、医師の誤った応答を訂正する場合、適切に設計されたプロンプトにより大規模言語モデルは医師を効果的に訂正することができます。例として、事例1dでは、実際の「いいえ」の回答率が38%であるにも関わらず、医師が常に「いいえ」と回答するシナリオで、Mistralモデルは顕著に高い精度を達成しています。また、Llama2とMeditronもプロンプトの変更に敏感に反応し、特定のシナリオでパフォーマンスが向上しています。


説明能力の検証に関する検証結果です。結果は下表のとおりです。大規模言語モデルはその回答の根拠をどの程度説明できるかも評価されました。具体的に、Meditronは医師の短い回答に影響されずに高品質の説明を維持していることが確認されました。一方、Llama2は医師が正しい回答をする事例ではROUGE-Lスコアが低下する傾向にありますが、Mistralは複数のシナリオで一貫して優れた説明を提供しています。これらの結果は、適切に構成されたプロンプトの下で、大規模言語モデルが信頼性のある説明を生成できることを示しています。

医師の論拠への依存度の違いに関する検証結果です。大規模言語モデルが医師の提供する論拠にどの程度依存するかが明らかになっています。特に、医師が回答に論拠を加えた場合、大規模言語モデルはその論拠に強く依存することが示されています。事例2aでは、医師が一貫して正確な回答と説明を提供する場合、Meditronは100%の精度を達成しています。これは、Meditronがプロンプトの最新の例を重視する傾向にあることを示しており、特定のシナリオで顕著なパフォーマンスを示しています。

一方、LLama2は全シナリオで医師の提供する論拠に過度に依存しているのに対し、Mistralはより堅牢なパフォーマンスを発揮しており、プロンプトの変動が少ないことが特徴です。特に、事例2dでMistralは全シナリオで75%以上の正確さを保持し、医師が誤った回答と論拠を提供した場合でも効果的に訂正する能力があることが確認されています。

次は、説明の質と一貫性に関する検証結果です。事例2のモデルに関するROUGE_Lスコアの分析から、LLama2とMistralが医師の意見を含むプロンプトに基づいて、より妥当で広範な説明を生成していることがわかります。対照的に、Meditronは医師の入力に過度に依存し、その結果、説明の質が大きく左右されています。さらに、各モデルが提供する回答の一貫性にも違いが見られ、LLama2とMistralは医師の立場に関わらず合理的な説明を提供する傾向にあります。

さらに、専門家の回答を組み込んだ大規模言語モデルはその性能を向上させることができますが、専門家自身の能力を超えることは難しいことが示されています。事例3のデータ分析(下表)から、大規模言語モデルの基本性能がシナリオによって大きく変わらない一方で、特定の条件下では明確な改善が見られます。たとえば、Meditronは医師の正確さが80%を超えるシナリオ2で基本性能を上回ることができました。LLama2も、医師の正確さが85%を超える場合にすべてのシナリオで基本性能を超える結果を示しています。

しかし、Mistralモデルは事例3において医師の回答に大きく影響され、性能が低下する傾向にありました。これは、大規模言語モデルの能力が医師の提供する情報の質に依存することを示唆しています。

さらに、70Bのような更に大規模なモデルが医師の回答を基にした場合の性能を検証したところ、結果は芳しくありませんでした。同じプロンプトを使用した際に性能が低下することが確認され、大きなモデルが必ずしも優れた結果を保証するわけではないことが示されました。特に、複数選択肢を持つMEDQAデータセットでLLama2-70Bモデルが55%未満の正確さしか達成できなかった事例は、モデルのサイズが性能向上の鍵ではない可能性を示唆しています。

まとめ

この論文から得られた洞察によると、プロンプトのデザインは大規模言語モデルのパフォーマンスに大きな影響を与え、モデルはプロンプトの変化に敏感である一方で、適切な指示と例を用いて誤った医師の回答を効果的に訂正することが示されています。

また、プロンプトが慎重に設計された場合、大規模言語モデルは回答を説明する能力を示しています。さらに、大規模言語モデルは医師がその回答のための論拠を提供する際に頼りがちであり、特に数例の例の順序によって大きく影響を受けます。

また、大型モデル(70B)が常に優れた結果を保証するわけではなく、プロンプトの質が性能向上の鍵であることが強調されています。この結果から、プロンプトの設計とその影響についてさらなる研究が求められます。この研究は、医療AIの発展におけるプロンプトの役割と、それが大規模言語モデルと医療専門家の相互作用に与える影響を明らかにしています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする