从自主设计到执行，利用大规模语言模型实现科学实验自动化

大型语言模型 24/06/2024

三个要点

✔️ 开发了一个人工智能代理系统，该系统可自主设计和执行科学实验并生成高质量的代码
✔️ 强调以合乎道德和负责任的方式使用这一强大工具，并指出有必要降低与滥用有关的风险
✔️ 明确了硬件、API 文档和软件传播问题还提到了限制

Emergent autonomous scientific research capabilities of large language models
written by Daniil A. Boiko, Robert MacKnight, Gabe Gomes
(Submitted on 11 Apr 2023)
Comments: Published on arxiv.
Subjects: Chemical Physics (physics.chem-ph); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

近年来，大规模语言建模取得了重大进展，尤其是基于转换器的模型。它们已成功应用于从自然语言处理到生物学、化学研究甚至代码生成等领域，而 OpenAI 对模型进行的大规模扩展则是这一领域的重大进展。此外，人类反馈强化学习（RLHF）等技术也有助于提高生成文本的质量，应对更多样化的任务，并增强决策理论化的能力。

2023 年 3 月 14 日，OpenAI 发布了迄今为止最强大的 LLM--GPT-4。尽管其训练方法和所用数据的许多细节尚未公开，但GPT-4已经展示了其非凡的问题解决能力，在SAT和BAR测试、LeetCode问题解决，甚至从图像中进行上下文解释（包括小众笑话）方面都有很高的表现。它还报告了如何处理化学问题的真实案例。

根据这些成果，本文开发了一个基于多大规模语言模型的智能代理（以下简称 "代理"），它可以自主设计、规划和执行复杂的科学实验。该代理可以搜索互联网、浏览相关文档、使用机器人实验 API，甚至利用其他大规模语言模型来执行各种任务。论文通过高效搜索和浏览各种硬件文档、精确控制液体处理设备，以及解决需要同时使用多个硬件模块和整合不同数据源的复杂问题，展示了 Agent 的多功能性和高效性。

代理概述

本文开发的代理程序通过其创新的架构和多个模块，实现了科学实验的自主设计、规划和执行。该系统由四个主要部分组成，其核心是一个中央 "规划器"。

规划器根据输入的提示（如 "执行多个铃木响应"）采取行动，并根据该指令执行一系列操作。这些操作包括在互联网上搜索信息、用 Python 进行计算、访问相关文档以及最后运行实验。执行这些操作的环境多种多样，包括使用云实验室、操作液体处理设备或手动实验指令。

代理的目的是收集任务所需的信息、进行计算并执行适当的响应。一般认为，要完全理解所要求的任务，平均需要 10 个步骤，如果所提供的信息足够详细，则无需再问其他问题。

网络搜索组件接收规划器的查询，将其转换为适当的网络搜索查询，并通过谷歌搜索 API 执行搜索。搜索出的网页会经过仔细检查，提取有用信息并提供给规划器。在这一阶段，可以使用 GPT-3.5，因为它在速度和准确性之间取得了平衡。

文档检索组件搜索与硬件相关的文档，并提取最相关的信息。这一过程的重点是提供对实验至关重要的特定功能参数和应用程序接口的语法信息。

代码执行组件可在隔离的 Docker 容器中安全地执行代码，并保护终端主机免受意外行为的影响。自动化组件还可在实际硬件上执行生成的代码，或提供手动实验程序。

试验

本文中布洛芬的合成就是该代理性能的一个例子。从简单的提示 "合成布洛芬 "开始，代理在互联网上搜索必要的信息，并从特定网站上收集有关如何合成布洛芬的详细信息。在此过程中，该代理正确地将 Friedel-Crafts 反应（异丁基苯和醋酸酐在氯化铝的催化下发生反应）确定为合成的第一步。

除了布洛芬的例子，代理还可以高效地规划和执行阿司匹林和阿斯巴甜的合成计划。即使最初的合成结果存在问题，也可以通过提供合适的合成示例加以纠正。此外，在铃木反应中，代理可准确识别底物和产物。

不过，在使用高温参数生成文本时，会发现在提出特定催化剂或基团时存在不稳定性。为了解决这个问题，通过应用程序接口将代理与化学反应数据库（如 Reaxys 和 SciFinder）连接起来，大大提高了系统的性能和准确性。分析系统过去的陈述也是提高准确性的重要方法。

此外，当前的技术环境越来越需要具有高级推理能力的智能代理与软件相结合。这一挑战的关键在于如何简明扼要地介绍复杂的硬件应用程序接口（API）文档。全面的软件文档对于理解和有效利用现代软件所特有的各种组件之间的复杂互动至关重要。然而，这些文档通常以高度技术性的术语编写，非专业人士可能难以理解。这就为新用户的进入设置了障碍，限制了软件的传播和有效性。

在这里，利用大规模语言模型的帮助被视为一种解决方案。如果能用自然语言生成非专业人员也能理解的软件文档，就能克服这一障碍。例如，在文本语料库（如 Opentrons Python 应用程序接口）上训练的模型，包含了大量有关应用程序接口（API）的信息，就有可能提高代理在使用应用程序接口时的准确性。

为此，它在 OT-2 API 文档中生成 OpenAI ada 嵌入，并计算交叉引用和查询的相似性。代理根据指示查询 API，以便适当使用 API，必要时使用 "文档操作"。根据查询结果生成 ada 嵌入，并通过基于距离的向量搜索选择适当的文档部分。这一过程在为代理提供进行化学反应所需的加热器振动器硬件模块信息方面发挥了重要作用。

将这种方法应用于翡翠云实验室（ECL）等不同的机器人平台提出了新的挑战。不过，本文确实探讨了提供 ECL 的符号实验室语言（SLL）信息的有效性，这对于 GPT-4 模型来说是一个未知领域。为此，本文向代理提供了 ECL 所提供的运行实验的整体功能指南。

上图举例说明了代理对用户提交的查询做出响应的三种情况。在每个案例中，代理都能正确识别执行任务所需的功能。一旦选择了一个功能，其原始文本文档就会在一个单独的 GPT-4 模型中进行处理，以保留和总结代码的语法。该模型尤其擅长于有效地保留特定功能的各种选项、工具和参数信息。一旦文件得到完全处理，就会要求该模型使用给定函数生成代码块，并将其返回给规划器。这一过程为代理利用特定选项、设备和参数使用功能提供了基础。其目的是减少技术障碍，使用户更容易设计和运行复杂的实验。

自动化技术的进步也使得开发多仪器系统成为可能，这种系统可以通过自然语言发出指令来控制多个设备。为代理提供正确的信息对于在物理世界中进行实验至关重要。为实现这一目的，本文选择了一个开源液体处理程序，该程序具有广泛的 Python 应用程序接口，并为系统规划器提供了 "入门 "页面。此外，还使用 "提供硬件应用程序接口文档 "一节中描述的方法对其他页面信息进行了矢量化，但这一过程无需访问互联网。

实验从机器人操纵的基本尝试开始。特别是要求机器人能够将整个微孔板视为一个整体。用自然语言发出的简单指令，如 "在每隔一行涂上所选颜色"，在大多数情况下都能产生精确的协议。机器人在执行这些协议时，会严格按照所要求的指令进行操作。

代理的最初任务是制备少量原始溶液样本。接下来，他们要求进行紫外可见光测量，测量完成后，他们会收到一个 NumPy 数组的文件名，其中包含微孔板每个孔的光谱数据。代理利用这些数据创建了 Python 代码，以确定最大吸收波长，从而精确地解决了问题。这一系列过程展示了使用自然语言实现精确实验操作的新可能性。

在目前进行的实验中，代理对模块的现有知识可能会产生影响。因此，通过根据从互联网上获取的数据进行必要的计算并最终确定液体处理器的代码，对代理规划实验的能力进行了测试。为了使任务更加复杂，要求代理使用加热器振动器模块，该模块是在收集了 GPT-4 培训数据后发布的。这些要求已纳入代理配置。

在所设计的问题中，给代理提供了一个装有两个微孔板的液体处理机。源板含有苯乙炔、苯硼酸、几种芳基卤化物键合伴侣、两种催化剂和碱，以及溶解样品的溶剂。靶板安装在一个加热器振动器模块中。该制剂的目标是设计出铃木和索诺伽希拉反应的方案。

代理开始在互联网上搜索有关所需反应及其条件的信息。它为相应的反应选择合适的结合剂。在铃木反应中选择了溴苯，在索诺加希拉反应中选择了碘化苯，但每次运行都会发生变化。这表明在未来的使用案例中，模型会多次运行实验，分析其推论，并构建一个更大的整体画面。

该模型选择 Pd/NHC 催化剂作为交叉偶联反应中更高效、更现代的方法，并选择三乙胺作为碱。然后，代理计算了反应物的总需求，并描述了反应方案。然而，由于使用了错误的加热器振动器模块名称，该模型参考了文档，并利用这些信息成功修正了协议。GC-MS 分析结果证实，两个反应的目标产物均已生成。

摘要

本文介绍了一种能够自主设计、规划和执行复杂科学实验的智能代理系统。该系统具有出色的推理和实验设计能力，能有效处理复杂问题并生成高质量代码。然而，用于科学实验的新型机器学习系统和自动化方法的开发引发了安全和双重用途问题，例如非法活动和安全威胁的增加。确保以合乎道德和负责任的方式使用这些功能强大的工具，可以降低滥用带来的风险，同时继续探索大规模语言模型在推进科学研究方面的潜力。