
使用InstructGPT从医疗文件中提取关键信息。
三个要点
✔️ 提出了一种使用InstructGPT以交互方式自动检索医学信息的方法
✔️ 在识别缩写、提取医学实验中的组别信息和提取药物信息等任务上进行了实验
✔️ 取得了明显高于以往的研究的准确率,零射、少射
Large Language Models are Few-Shot Clinical Information Extractors
written by Monica Agrawal, Stefan Hegselmann, Hunter Lang, Yoon Kim, David Sontag
(Submitted on 25 May 2022 (v1), last revised 30 Nov 2022 (this version, v2))
Comments: Accepted as a long paper to The 2022 Conference on Empirical Methods in Natural Language Processing (EMNLP)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
对话模型的惊人表现,以2022年12月推出的ChatGPT为例,是一个热门话题。这些进展导致了以对话形式处理现有任务的研究迅速增加,医学自然语言处理也不例外。
本文提出了一种利用InstructGPT(这里是text-davinci-002,text-davinci-edit-001)自动提取医学文献中各类信息的方法,并证实了其准确性。在四个不同的任务--缩写(acronym)识别、核心词分析、医学实验组信息提取和药物信息提取上的实验证实,所提出的方法明显优于传统的Zero-shot和Few-shot模型的准确性。
什么是InstructGPT和Prompt?
InstructGPT是OpenAI开发的一个大规模语言模型。与GPT系列以前的模型相比,它使用强化学习进行训练,以更容易产生人类喜欢的输出,据说这种技术是ChatGPT性能的核心。InstructGPT不像ChatGPT那样是一个特定的对话模型,但它经常以对话形式使用,如在本研究中。它经常以对话的形式使用,就像在这项研究中一样。
大规模的语言模型通常使用一种指令,称为提示,作为模型的输入(在下面的例子中,"提示:创建一个药物列表。")。然后,该模型在提示之后生成一个合理的句子,从而形成一个反应。
上面的例子是本文进行的一个实际实验的例子,首先呈现一份医疗记录,然后将 "请列出一份药物清单 "的指令输入模型。这就是获得一份药物清单所需要的全部内容!
在下面的One-shot(模型只得到一个输入-输出的例子)的例子中,预期的输出例子被提前给了模型,以进一步提高输出的准确性。在这个实验中,以前用自然语言获得的答案现在以列表形式给出,使模型获得与计算处理更兼容的表示。
本文中的信息提取方法。
本文试图用这种Prompt技术从InstructGPT中获取信息。这个方法非常简单:要从InstructGPT的输出中获取所需的信息,只需要对输出进行后处理,使其达到所需的格式。
例如,在下面的例子中,任务想找出医疗记录中出现的缩写 "PA "是什么。要做到这一点,请输入医疗文件+"展开缩写:[缩写]"作为提示。然后,InstructGPT会给你这样的输出,你所要做的就是通过后处理提取 "肺动脉",即图中的红色部分。在本文中,提取是通过使用与原始文件的差异进行后处理的。
类似的程序已被用于药物信息提取、核心推理分析(识别代词等所指的具体内容的任务)和医学文本中的分组提取实验。要提取的信息是下图中蓝色强调的信息。后期处理包括从要点到列表的转换和引号内的提取。
本文所做的其他努力包括创建可以从外部发送的新数据(对现有数据的注释),因为医疗文件语料库有严格的使用条款,不能像现在这样发送到OpenAI的API,以及创建输入到模型的Prompt,上原因是他们正在创建自己的Prompt,以输入到模型中。
实验结果
实验使用所有可能的数据比较了现有的 "零枪"、"一枪 "和微调方法的准确性。
缩略语识别
可以看出,即使是零点射击,微调基线监督模型的准确率也明显优于基线监督模型(尽管基线模型不是专门为医疗文件训练的强势模型,所以不清楚它是否优于此类模型)。
群体选择
群体提取的结果显示在表格右侧的 "摘要级准确率 "一栏中,明显优于之前的 "零枪 "模型。
核心参考分析
Zero-shot和One-shot也都优于以前的研究。括号()中的数字显示了后处理脚本的行数,但可以看出,Zero-shot不能控制输出,需要更复杂的处理。因此,似乎存在着无法从模型输出中成功提取答案的情况。
还有一个奇怪的结果是,在 "一拍即合 "过程中,当模型得到错误的答案(不正确)时,其准确率要比模型得到正确的答案(正确)时好。
药物信息提取
这里也是如此,One-shot的准确性超过了监督模型的准确性。
摘要
这篇文章介绍了关于以对话形式自动获取医疗信息的研究。实验结果非常好,该文极大地表明了在医学领域使用大规模语言模型的对话方法的有用性。
然而,也有一些挑战。首先,该生成方法被称为Hallucination,它输出的信息不在输入中。这与应用于真实医疗实践的方法并不匹配。如果对于一个给定的输入,答案不存在或在文件中找不到,模型就需要这样输出。
后处理是相当依赖于启发式方法的。后处理是通过观察实际生成的结果来设计的,如果输出比较宽松,就像Zero-shot的情况一样,就会经常出现错误。
然而,最近在巨型语言模型方面的进展,如GPT-4的出现,令人瞩目,预计未来使用巨型语言模型的进一步研究将增加,我们可以期待看到各种研究的出现,包括解决上述问题的研究。
与本文相关的类别