GPT-Lab 实验室，一个采用 LLM 和机器人技术的全自动实验系统

大型语言模型 06/06/2024

三个要点

✔️大规模语言模型使机器人能够自动设计、进行和优化实验
✔️ 大规模语言模型从文献中提取必要信息，显著提高实验方案设计的准确性
✔️ GPT 实验室开发的一种新型相对湿度（RH）染料。传感器可高精度预测相对湿度，验证了系统的有效性

GPT-Lab: Next Generation Of Optimal Chemistry Discovery By GPT Driven Robotic Lab
written by Xiaokai Qin, Mingda Song, Yangguan Chen, Zhehong Ai, Jing Jiang
(Submitted on 15 Sep 2023)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Robotics (cs.RO)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

自主实验室（自驱动实验室，SDLs）目前已成为科学界的焦点和前沿，它将机器人技术与先进算法相结合，为材料科学、化学合成、生物学和医学等各个领域开辟了新的可能性。自主实验室（SDL）允许机器人自动设计、进行甚至优化实验，并大规模生成高质量数据，从而加快了研究与开发的速度。虽然这项技术已经取得了卓越的成果，特别是在新材料和药物的开发方面，但仍有一些领域需要研究人员具备高水平的专业知识和经验。

这就是文本挖掘越来越受关注的原因。自然语言处理（NLP）被用来从文献中提取研究人员所需的信息，以提高研究效率。其中，GPT-4 等大规模语言模型的出现大大提高了文献挖掘和实验方案设计的准确性，只需少量训练数据就能取得显著成果。

卡内基梅隆大学的研究人员展示了如何利用 GPT 支持科学研究，并使用 Opentrons API 成功实现了实验设计自动化。这一成果是朝着进一步发展自主实验室（SDL）迈出的重要一步。然而，在发现新试剂和材料所需的大量文献检索自动化方面仍有改进空间。如果能克服这一挑战，研发进程有望进一步加快。

在此背景下，本文开发了一个 "GPT 实验室"，其中包含一个名为 "ARMFE"（分析-检索-挖掘-反馈-执行）的 GPT 增强型自主实验室（SDL）管道。该管道利用基于 GPT-4 的代理来快速、准确地促进研发过程。本文利用该管道成功开发了一种新型染料传感器，用于检测相对湿度（RH）。该传感器能够高精度地预测相对湿度 (RH)，证明了 ARMFE 的有效性。

这一成就是朝着实现只需极少人工干预就能进行独立研究和开发的机器人迈出的重要一步。自主实验室的发展才刚刚开始，我们可以期待未来会有更多的发现和创新。

GPT 实验室概述

GPT-Lab 由两部分组成：一部分是基于 GPT 框架的自动实验设计代理。另一个是算法驱动的机器人实验平台。这两个部分共同创建了一个系统，自动将实验准备的整个过程与实验结果联系起来。

这一系列流程被称为ARMFE（分析-检索-挖掘-反馈-执行）。下图是这一工作流程的概览。代理包括五个步骤：需求分析（分析）、文献获取（检索）、文本挖掘（挖掘）、研究人员反馈（反馈）和实验执行（执行）。

在需求分析（Analysis）中，研究人员向代理提出具体的实验需求，代理使用 ChatGPT API 从研究人员提出的需求中提取文献检索所需的五个关键词。如果需求不明确，代理会向研究人员提问，以明确所需的方法和信息。

在文献检索（Retrieval）中，检索到关键词的代理在网上搜索并收集相关文章及其摘要，再利用 ChatGPT API 从这些信息中整理出更相关的文档，并获取完整的文章进行分析。

文本挖掘（Mining）使用 GPT 来理解文章内容，并提取有关实验中使用的物质及其作用的信息。这些信息以 JSON 格式整理并存储，以便日后处理。

在研究人员反馈（Feedback）中，GPT-Lab会向研究人员展示从 JSON 中提取的信息。研究人员利用这些信息选择要使用的实验材料，并通知代理。根据这一反馈，代理以 JSON 格式构建实验参数，并将其发送至机器人实验平台。

在实验执行中，机器人实验平台根据从代理接收到的参数执行液体配方和后续实验，这些参数基于 GPT 设计的研究代理提出的材料设计空间。包含实验所需物质的 CAS 代码和浓度值的文件被发送到机器人实验平台，并在该平台上执行实际实验。

实验：代理人挖掘文章

GPT-Lab的发展正在彻底改变科学研究方法：GPT-Lab代理平均每小时可处理 100 篇研究文章，利用多线程技术，速度可提高三到五倍。这比传统的人工文献提取节省了 100 多倍的时间。该系统还能对与研究课题相关的潜在试剂进行全面分析，并能毫不费力地总结出人类研究人员难以解决的超高维变量。

从分析的 500 篇文章中，确定了 50 种潜在试剂，并从中选出相关性得分在 80% 或以上的 18 种试剂。其中包括 8 种关键候选材料，该系统可识别它们的实验作用、预期用途、来源和相关性原理。这些信息将提供给研究人员，帮助他们根据自己的专业知识和实验需求做出选择。下图显示了与代理对话的示例。

与单纯的 GPT 相比，该系统显示出更高的准确性和可行性：GPT提供的许多物质往往不符合后续机器人实验的要求，而 GPT-Lab提供的许多物质已被证明适用于帝王系列实验环境并具有可行性。已证明适用于 Imperial 系列实验的物质包括：

此外，为了证明这种方法的多功能性，还探讨了湿度传感器材料发现以外的应用。从寻找过氧化物太阳能电池的关键材料，到发现检测桑叶中生物碱含量的方法，都证明了这种方法的广泛应用。通过这些探索，证实了它并不局限于单一的应用领域，而是可以应用于发现各种各样的材料和方法。

实验：进行机器人实验

所选试剂分为三类：着色剂、添加剂和溶剂。着色剂包括氯化钴（CoCl2）、碘化镍（NiI2）和溴化镍（NiBr2），添加剂包括氯化钙（CaCl2）、四甲基碘化铵（TMAI）、聚乙二醇（PEG）和乙基纤维素（EC）、溶剂选用异丙醇（IPA）。在具体实验中，每种试剂的用量被视为一个变量，总共有八个变量。由于总量恒定，确定前七种试剂的数量就会自动确定最后一种试剂的数量，从而形成一个七维变量空间。

实验的进行与已经报道的 DBTM 过程密切相关。该过程是在机器人实验平台上实施的高效算法指导过程。下图给出了一个概览。

(a) 显示液体处理工作站的示意图，它提供了一个最先进的研究区域。(b) 显示了液体处理工作站的功能模块，包括未稀释溶液区、移液器吸头区、配方设置区和传感单元制造区等多个功能模块，提高了研究的效率和准确性。(c) 是传感单元的图像，每个色点代表一个气体传感单元，其颜色由计算机视觉算法识别。这样就可以对气体传感能力进行精密分析。(d) 是气体通路示意图，氮气（N2）流分为两条通路，分别通过一个干燥器和一个加湿器，由两个质量流量控制器（MFC）控制。这样就可以实现各种相对湿度 (RH) 水平，以测试气体传感装置。(e) 是气体测试装置，包括暗室、光源、摄像头和气室。气体传感装置被放置在一个透明的上室中，上室由暗室和提供均匀光照条件的光源组成。照相机详细记录了不同环境下的颜色变化，使研究人员能够收集精确的数据。

根据用户的要求，通过调整参数可以快速找到最佳配方。具体来说，周期为 "生成配方--机器人进行准备--机器人进行测试--处理数据--生成下一个配方"。

机器人系统由一个液体处理器和一个自建暗室组成。制备过程在液体处理器中进行，而测试则在暗室中进行。测试时，不同湿度的氮气会通过固定在气室中的样品。在一致的照明条件下，照相机会连续记录颜色的变化，并生成一条曲线，显示颜色与时间之间的关系。根据这条曲线，可以计算出颜色变化范围、反应时间、可逆性和灵敏度等指标。对这些指标进行综合评估，得出最终得分。这一迭代过程由贝叶斯优化算法指导，该算法会引导下一个样本的选择朝着不确定性更大或得分提高潜力更大的方向进行。在实际实验中，一批采集 96 个样本。在随机生成最初的 96 个配方后，使用贝叶斯策略创建随后的几轮配方。每一轮都包括探索和利用趋势。

不同实验批次的样本得分分布如下图（a）所示。随着轮次的增加，每轮的最高分也逐渐增加。从第 3 轮开始，出现了许多样本开始集中在 0 分范围内的现象。这可能是为了避免陷入局部最优解而有意探索的结果。然而，受这种探索倾向影响的食谱往往更具不确定性，更容易出现极端值，从而导致分数降低。经过五轮实验和 480 个样本的积累，最高分不再显著上升。第五轮的分数分布也更加分散，获得高分的样本更多，表明这些分数比上一轮更接近零。这表明，在高度不确定的情况下很难找到好的配方，目前的最优配方正在接近准全局最优解。

上图(b)显示了五轮迭代中每轮 96 个配方中每种物质的总用量。在第一轮中，配方是随机生成的，因此特定配方中每种物质的比例可能会有很大差异，但总比例是相似的。随着迭代的进行，CoCl2 的使用量总体呈上升趋势，而 CaCl2、NiBr2 和 TMAI 的使用量总体呈下降趋势，并逐渐被淘汰。这一趋势表明，使用更多 CoCl2 的配方可能会产生更好的效果，而 CaCl2、NiBr2 和 TMAI 的效果有限或相反。

上文(c)中还显示了两个选定的配方，其中不包括 NiBr2 和 TMAI。配方 1 含有少量 NiI2，配方 2 含有少量 CaCl2，以提高对低湿度和高湿度条件的灵敏度。如上图（d）所示，由这两个配方组成的阵列对室温下相对湿度（RH）的预测准确度为 5%至 95%，平均平方误差（RMSE）为 2.68%。

摘要

GPT-Lab 有三大关键举措。首先，它在实验设计中实现了出色的 GPT 性能。第二，它展示了从实验建议到具体结果的自动化流程的潜力。第三，没有计算机科学专业知识的化学家在实验中有效利用了机器人实验平台，极大地提高了实验效率。事实上，一个染料湿度传感器在一周内就制作完成，几乎不需要人工干预，就能预测室温下 5-95% 的相对湿度，误差率仅为 2.68%。

然而，在实验过程中也发现了一些挑战：GPT 的智能有限，其输出的不准确可能会造成问题。如果出现不正确的响应，就需要进行程序验证和重新测试，以确保代理的稳健性，这就增加了使用 GPT 的成本。此外，虽然GPT 实验室省去了文献综述和实验工作，节省了研究人员的时间，但却限制了他们在已公开文献之外获取特定领域知识的能力。这意味着研究人员需要手动筛选实验参数。

可能的解决方案包括学习具有丰富化学知识的大型模型，或通过知识图谱和在大量数据集上进行微调来扩展 GPT 的知识范围。随着大型模型的开发，化学研究领域有望变得更加高效和简化。