
大规模语言模型 Gemini 在医学领域的评估和前景
三个要点
✔️ Gemini 概述和应用:Gemini 是一种多模态语言模型,能够理解和生成医疗领域中不同输入格式的信息,包括文本、图像、音频和视频。
✔️ Gemini 的评估方法和结果:虽然 Gemini 在广泛的医学主题中显示出强大的理解能力,但它也被指出极易受到影响,尤其是在幻觉方面。
✔️ 未来展望与挑战:建议改进的领域包括 Gemini Pro 评估仅限于可用的 API,以及缺乏对较长问题的评估。
Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations
written by Ankit Pal, Malaikannan Sankarasubbu
(Submitted on 10 Feb 2024)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,大规模语言模型在理解和生成人类语言的能力方面取得了显著进步。这些进步促进了语言学和计算机编程等多个领域的突破。特别是,GPT-3 和 PaLM 等模型能够通过学习大量文本数据来理解复杂的语言模式。人工智能技术的快速发展推动了 LLM 的不断改进,并加速了这一专业领域的创新。这些进步是随着模型规模、数据量和计算能力的增加而逐步实现的。许多先进的模型都是以变压器架构为基础,利用自我监督学习技术建立起来的。
大规模语言模型在医学中的应用尤其具有创新性和无限可能性。通过分析大量医学文献和整合新知识,这些模型有望为医学世界带来新的见解。研究人员正在积极评估大规模语言模型如何能够补充医学专业知识并提升医疗保健服务。
然而,在带来大好机会的同时,这一新技术领域也面临着重大挑战。例如,大规模语言模型能否在专家水平上处理医学知识,以及是否存在生成错误信息的风险等问题。了解这些技术的潜力和局限性对于在医学中负责任地使用语言模型至关重要。
本文以谷歌的 Gemini 模型为重点,研究了大规模语言模型在医疗领域的潜力和挑战。Gemini 是最先进的多模态语言模型。本文使用多个基准测试对 Gemini 的能力进行了严格评估,以确定其在医疗领域的优势和局限性。
该研究证明了 Gemini 对各种医学主题的强大理解能力,同时也强调了它在需要专业知识领域的局限性。该研究深入探讨了包括 Gemini 在内的大规模语言模型在医疗领域的应用,并强调了其潜在的优势和挑战。希望这将有助于讨论人工智能技术在医疗领域的未来前景。
技术
本节将概述 Gemini 的结构、性能以及如何评估其推理能力。Gemini 采用最先进的多模态架构,充分利用谷歌先进的 TPU 硬件,旨在实现复杂的分析和推理。本节将概述其架构以及如何将其具体应用于医疗领域。
双子座架构:双子座模型基于先进的变压器解码器,可处理多达 32 000 个标记的上下文,并无缝结合文本、图形和音频数据。该模型设计可靠、高效,可减少硬件故障和数据失真;Gemini 的推理能力及其基准分数为多模态人工智能研究设定了新标准。
医学标杆:MultiMedQA 是一个医学质量保证数据集,用于评估临床推理能力,包括 USMLE 和 NEET-PG 等需要跨学科知识的实际考试;MedQA 和 MedMCQA 是美国和印度的医学许可考试中抽取的问题,提出了复杂的临床推理挑战;PubMedQA 包括 1,000 个问题,综合了研究摘要中的见解,评估封闭领域的推理能力;MMLU 涵盖广泛领域,测试基础科学知识与医学理解的整合;MMLU 是一个全面的医学 QA 数据集,测试医学推理能力。
特殊基准:Med-HALT 是评估危险推理倾向的基准,以 "首先,不造成伤害 "的医学原则为基础设计。通过推理幻觉测试(RHT)和记忆幻觉测试(MHT),该模型可评估逻辑分析能力,并在必要时承认不确定性。
视觉问答 (VQA) 基准使用来自《新英格兰医学杂志》(NEJM)图像挑战赛的 100 道多项选择题来评估 Gemini 的多模态推理能力,包括图像理解、医学知识回忆和逐步推理,测试三种能力。
通过上述测试,Gemini 具体展示了其创新方法如何解决医疗领域的复杂问题。这些测试证明了 Gemini 的推理能力及其准确性和可靠性,尤其是在处理医疗信息方面。
实验结果
本节将分析 Gemini 在 MultiMedQA、Med-HALT 幻觉和医学视觉问题解答 (VQA) 基准测试中的表现,并将其与其他模型进行比较。
首先,让我们看看 Gemini 在 MultiMedQA 基准测试中的表现。下图显示了 Med-PaLM 2、GPT-4 和 GeminiPro的 MultiMedQA 分数。 Gemini Pro 在各种医疗主题的 MultiMedQA 基准中都取得了显著的成绩。
下表还将 Gemini Pro 的结果与 Flan-PaLM、Med-PaLM 和 Med-PaLM 2 的结果进行了比较。Gemini Pro 在 MedQA(USMLE)数据集上的得分率为 67.0%,是 MedPA-LM2 的最高分(高达 86.5%),以及 86.1% 的 GPT-4(5-shot),与 GPT-4 的最高分(高达 86.5%)无法相比。这一巨大差异表明,Gemini Pro 在处理复杂、多步骤的美国国家医学考试式问题方面的能力还有待提高。
MedMCQA 数据集的覆盖范围也很广,是一个特别具有挑战性的环境:Gemini Pro 在 MedMCQA 数据集上的得分率为 62.2%,与排行榜上的其他模型相比差距很大。例如,ER 和 best 在 Med-PALM 2 上的得分都达到了 72.3%,表明其在此环境下具有更强的理解和处理能力。此外,GPT-4 模型(包括基础版和 5 连拍版)的表现也很出色,得分率在 72.4% 到 73.7% 之间。这些结果表明,要在 Gemini MedMCQA 数据集上取得更好的性能,还有一定的改进空间。
PubMedQA 数据集也使用是/否/表格式,这给二元和三元问题带来了独特的挑战;Gemini Pro 在该数据集上的得分率为 70.7%,Med-PaLM 2 的最高得分率为 81.8%,而 5GPT-4-base 为 80.4%。这种性能差异表明,Gemini Pro 需要提高处理二元和三元回答的能力,以及处理科学文献和临床领域问题的能力。
此外,在 MMLU 临床知识数据集上,Gemini Pro 的表现不如 Med-PaLM 2 和 5-shot GPT-4 等最先进的模型。GPT-4-base都达到了 88.7%。在分析特定子域时,这一趋势依然存在。在医学遗传学评估中,Gemini Pro 的准确率为 81.8%,而 5 发GPT-4-base 的正确率为 97.0%。同样,在解剖学评估中,Gemini Pro 的准确率为 76.9%,但比 5 发GPT-4 base85.2% 的准确率低 8%。在专业医学和大学生物学等其他类别中也存在类似的性能差距,Gemini Pro 无法赶上顶级模型。此外,在大学医学类别中,Gemini Pro 的得分率为 79.3%,显示出合理的能力,但与 Med-PaLM 2 和 GPT-4 变体等模型的顶级性能相比还有差距。这些结果表明,Gemini Pro 在处理医疗数据方面具有很强的基本能力,其架构也很有潜力。不过,从 Med-PaLM 2 和 GPT-4 等机型的最佳性能来看,显然还有改进的余地。
此外,还进行了与开源大规模语言模型的对比分析。在此,我们使用了一系列最先进的模型,包括 Llama-2-70b、Mistral-7bv0.1、Mixtral-8x7b-v0.1、Yi-34b、Zephyr-7b-beta、Qwen-72b 和 Meditron-70b,以评估它们的零-射和 FewShot 的能力。通过使用 MultiMedQA 基准进行标准化分析,评估了 Zero-Shot 和 FewShot 的能力,以量化已发布的 L-large 语言模型的能力和局限性。下图分别显示了 Zero-Shot 和 FewShot 的性能。
(零投篮命中率)。
(少儿摄影表演)。
跨数据集的性能:我们在一系列医学数据集上测试了许多开源模型,以评估它们的四射和零射能力;在五射学习基准中,Qwen-72b 的表现始终如一。Qwen-72b的灵活性和从少量优秀实例中吸收知识的能力表明,它在特定医学知识领域的广泛人工智能能力与特定医学专业知识的细微要求之间架起了一座桥梁。
零拍与四拍提示:零拍与四拍训练结果的比较揭示了基于例子的训练对模型性能的重要性 Yi-34b 和 Qwen-72b 等大规模语言模型表明,引入少量例子就能明显改善性能。这些结果表明,基于示例的学习在提高模型的准确性和推理性能方面发挥着重要作用,尤其是在医学等专业领域。
针对特定模型的见解:评估结果表明,在不同的医学问题类型和数据集上,每个模型都表现出独特的优缺点;Gemini Pro 在多个数据集上表现出一致的性能,并具有很强的适用于不同情况的能力,但在某些领域,尤其是 Yi-34b 等模型的效果不佳。另一方面,Mixtral-7b-v0.1 等模型在 PubMedQA 数据集中显示出巨大的潜力,可以对科学文章进行有效的分析和推断。此外,Mixtral-8x7b-v0.1 在 MMLU 临床知识和 MMLU 大学生生物学上的表现尤为突出,显示了其吸收复杂医学信息的能力;Qwen-72b 处理多种类型医学问题的能力很强,无需事先举例;Mixtral-8x7b-v0.1 处理各种医学问题的能力也很强,无需事先举例。该模型在 MMLU 大学生物数据集上的表现无与伦比,准确率高达 93.75%,并能很好地理解复杂的生物概念。
摘要
虽然本文提供了 Gemini 功能的全面基准,但未来的探索仍有一些局限性。首先,对 Gemini Pro 的评估仅限于可用的应用程序接口,并没有利用 Gemini Ultra 更先进的功能。未来的研究有望利用 Gemini Ultra 的应用程序接口获得更深入的见解。
另一个局限是,它不包括对较长的问题进行评分。这在多医学质量评估中是一个重要方面,应在今后的研究中扩展到这一领域。使用实时数据和检索增强生成 (RAG) 等先进技术也能提高模型的性能。
VQA 任务使用的样本相对较少,未来的研究需要考虑更大的数据集。解决这些局限性将有助于了解 Gemini 的潜力,并有助于为医疗应用开发更先进的人工智能工具。
研究还根据医疗领域的多个基准对谷歌双子座进行了评估,结果发现,虽然双子座在一系列医疗主题上表现出了理解力,但在某些方面与其他领先模型相比还存在不足。特别是,它极易产生幻觉,因此提高其可靠性和可信度非常重要。这项研究开创了医学多模态模型评估的先河,并为促进未来发展提供了一个公共工具。最终,人工智能无法取代人类的临床判断力和同理心,但精心设计的人工智能辅助工具将提高专业技能,支持医学的治疗和服务使命。
与本文相关的类别