赶上最新的AI论文

BioPlanner

BioPlanner "和 "BIOPROT 数据集 "用于实现生物研究实验方案的自动化

大型语言模型

三个要点
✔️ 自动方法 "BioPlanner "的开发:通过将生成适当操作集的教师模型和在此基础上解决任务的学生模型联系起来,评估语言模型生成协议的能力
✔️ 引入新数据集 "BIOPROT":收集了来自 Protocols.io 的 9,000 多个公开可用的生物实验协议,为评估戴尔在各种任务中的表现提供了基础。
✔️ 验证了 GPT-3.5 和 GPT-4 的性能,尤其证明了 GPT-4 协议生成功能的优越性

BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
written by Odhran O'Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud, Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques
(Submitted on 16 Oct 2023)
Comments: EMNLP 2023
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Robotics (cs.RO)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

在生物研究中,传统方法耗时、耗力,而且容易出现人为错误。然而,机器人实验室自动化技术的进步极大地提高了研究的准确性、可重复性和可扩展性,使实现科学突破和更快地将研究成果应用于现实世界成为可能。

研究自动化的一大进步是自动生成实验方案。这种技术可以自动创建准确执行实验和实现特定目标的详细程序,并将其转化为机器人可以理解的代码。特别是,语言建模的进步有可能准确地形成科学协议,这一点已在化学领域得到证实。

然而,目前还没有明确的方法来评估所生成协议的准确性,而且协议对详细信息非常敏感,指令的细微变化可能导致截然不同的结果。此外,同一协议在不同的表示粒度下也很难评估其准确性。

为了应对这一挑战,本文开发了一种自动方法 BioPlanner,用于评估编写生物协议的能力。该方法受机器人规划的启发,使用一组封闭的行为,通过伪代码对协议进行自动转换。该系统通过让教师模型生成适当的行为集,并让学生模型从头开始解决任务,来评估语言模型生成协议的能力。


此外,还引入了一个名为 BIOPROT 的新数据集。这是一个公开的生物实验协议集合,以自由文本和特定协议伪代码的形式提供指导。通过该数据集,可以在多个不同任务中对模型的性能进行评估,并已用于在实验室中进行实验。

BIOPROT 数据集

本节介绍 BIOPROT 数据集。这是一个公开协议集合。该数据集旨在评估大规模语言模型在广泛的生物主题协议生成中的性能。

该数据集收集了来自 Protocols.io 的 9,000 多个不同科学学科的规程,用于开发和共享可重复的方法。这些规程包括标题、描述和详细的分步指南。这些协议是根据其与生物学的相关性、可重复性和适当的难度水平筛选出来的。下表概述了所收集的规程。

由于难以用自然语言评估规划问题,因此使用 GPT-4 将协议转换为伪代码。下图是其概览。该流程定义了执行协议所需的一组伪函数,并利用这些函数将步骤转换为伪代码。自动反馈回路也用于验证生成的代码。

此外,生成的伪函数和伪代码都经过人工验证,以确保其正确性。这项审核工作由有能力的实验室科学家完成,他们评估原始协议在自然语言中是否合理,标题和说明是否充分,以及伪代码是否准确必要时,会对伪代码进行编辑。下表列出了所做编辑的细目。

我们还生成了高质量的协议描述。这样做的目的是让人们了解协议步骤应包含哪些内容;由于 Protocols.io 的描述并不总是合适,我们将这些描述添加到了数据集中。

BIOPROT 数据集提出了一种新方法,即使用带有错误检查循环的语言模型,在没有人工干预的情况下创建精确生物协议的伪代码数据集。这种可自我评估的方法有望对未来的生物研究产生重大影响。

指标与评估:制定科学规程的新标准

BIOPROT 数据集用于评估大规模语言模型在一系列任务中理解和生成科学协议的能力。

首先,根据给定的协议标题、描述和伪函数集,验证模型正确推断协议下一步的能力。在这里,我们衡量的是预测函数及其相应参数的准确度。

在函数正确性方面,评估所选函数的正确率。至于参数正确性,则使用 BLEU 分数从名称的正确性到参数值的正确性进行详细评估特别是,参数值的相似性是通过 SciBERT 编码器的 SciBERT 分数来衡量的,该编码器适用于科学领域。

另一项更具挑战性的任务是让模型生成完整的伪代码。在这里,要评估的是函数的选择和使用顺序是否正确。莱文斯坦距离用于确定函数的使用顺序是否正确。该距离表示函数调用顺序的再现准确程度。

它还评估了该模型能否准确识别特定规程所需的步骤。这显示了从数据集中的现有协议组装新协议的潜力。在这项任务中,准确性和可重复性是通过考察模型能在多大程度上准确识别所提供功能中的实际需要来衡量的。

实验和结果摘要

使用 GPT-3.5 和 GPT-4 验证了其性能。使用 text-embedding-ada-002 嵌入创建了详细的嵌入索引,以描述所有协议,所使用的过程和提示作为本文的补充材料。

论文评估了模型在不同设置下的性能。在这方面有两种方法:一种是洗牌法,即按照函数生成的顺序或随机洗牌的顺序提供函数;另一种是反馈法,即访问错误循环,以检测未定义的函数和 Python 语法错误。特别是,洗牌函数已被证明会增加任务的难度,而反馈循环则有助于改进规划和推理。

下表显示了下一步预测的结果,GPT-4 预测正确下一步的能力始终优于 GPT-3.5,但 GPT-3.5 预测函数参数的能力更强。当函数被洗牌时,也会出现性能下降。

协议生成结果如下表所示。在列文斯泰因距离得分上,GPT-4 的表现明显优于 GPT-3.5。这表明 GPT-4 更善于按正确顺序使用函数,尽管两种模型选择正确函数的能力相似。

函数检索结果如下表所示尽管 GPT-4 在这项任务中的表现仍然优于 GPT-3.5,但总体结果并未达到预期这可能是由于正确答案有时模棱两可,导致性能较低。


GPT-4 也用于评估伪代码的准确性。通过比较协议描述、允许的伪函数和伪代码(预测和地面实况),模型可以确定哪个更符合协议描述。结果如下表所示,表明 GPT-4 在区分机器生成的协议和地面实况协议方面略有成功,但尚不清楚这一成绩是由于生成协议的高准确性,还是由于 GPT-4 区分能力的局限性。

如果协议描述缺乏细节,则使用 GPT-4 生成协议步骤的简明伪说明。这种方法可略微提高下一步生成和完整协议生成的准确性。

此外,还尝试创建端到端协议,以证明 BIOPROT 数据集是生成准确和新颖协议的有效工具。利用可访问该工具的大型语言模型代理,该方法可搜索包含相关伪函数的协议,并生成新的伪代码。 基于大肠杆菌的协议已在实验室成功实施并得到验证。在营养琼脂上的培养结果表明,细胞在零下 80 摄氏度长期保存后仍能继续存活。

预计这一系列实验将为使用 BIOPROT 数据集进行研究开辟新天地,并为自动生成实验室协议提供可能性。

摘要

本文提出了评估大规模语言模型的自动化方法 BioPlanner 和由生物实验方案组成的数据集BIOPROT以解决实验科学中的开放式规划问题在 GPT-3.5 和 GPT-4 上对开放式规划问题相关任务的性能评估表明,仍有改进的余地不过,利用本文提出的数据集和框架,在实验室中也有成功执行大规模语言模型生成协议的例子。

这项研究也有几个局限性:一是成本问题;GPT-3.5 和GPT-4 不是开放源代码,大规模实验成本高昂此外,本文仅关注生物学。然而,它也可应用于其他科学领域,如化学和材料科学。此外,所提出的框架和数据集有可能被滥用于合成有害化合物因此,本文已采取谨慎措施,确保 BIOPROT 不包含可能被滥用于此类目的的协议。

该文件指出,今后的目标是通过对产出进行有计划的评估,以及使用便于检测危险物质生产的伪函数,最大限度地降低风险。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们