[ChemReasoner] 利用量子化学和 LLM 的催化剂发现框架

大型语言模型 29/11/2024

三个要点
✔️ 识别与反应相关的化学描述符，利用大规模语言模型发现最佳催化剂
✔️ 利用量子化学反馈增强自然语言推理能力，预测复杂的催化过程
✔️ 将语言推理和量子化学反馈与 ChemReasoner 相结合，提高催化剂发现的效率

ChemReasoner: Heuristic Search over a Large Language Model's Knowledge Space using Quantum-Chemical Feedback
written by Henry W. Sprueill, Carl Edwards, Khushbu Agarwal, Mariefel V. Olarte, Udishnu Sanyal, Conrad Johnston, Hongbin Liu, Heng Ji, Sutanay Choudhury
(Submitted on 15 Feb 2024 (v1))
Comments: 9 pages, accepted by ICML 2024, final version
Subjects: Chemical Physics (physics.chem-ph); Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

为了发现新催化剂，有必要找到化学描述符（特性）的最佳组合。然而，这些往往是基于经验法则。化学家们在头脑中推理反应物、催化剂和操作条件的组合，以实现更节能的化学转化。在一项研究（Nørskov 等人，2011 年）中，利用化学描述符将微观表面性质与宏观催化性能联系起来，被认为是快速提出新假设的关键。

大型语言模型可以实现这种数据驱动的自主探索，加速科学发现。本文旨在利用量子化学反馈增强自然语言推理能力，以发现目标反应的最佳催化剂。

要对复杂的催化过程进行推理，除了现有的语言模型外，还需要具备以多种模式进行建构的能力。这包括文献中的科学概念和三维原子结构的预测。要确定最佳催化剂，需要对多种宏观特性进行推理。第一步是确定与反应相关的化学描述符（如 "抗中毒性"、"多孔性"）的最佳组合。这就需要对无数可能的组合进行推理，并需要一个外部推理器，如大型语言模型。大型语言模型利用科学概念知识提出关键属性，并选择具有这些属性的最佳催化剂。为了缩小候选催化剂的巨大空间，需要对三维空间中原子结构之间的复杂相互作用进行推理。此外，简单反应可以通过三维化学结构的吸附能进行评估，而复杂反应则需要考虑多步反应途径和选择性。

为了应对这一挑战，本文提出了一个框架，将大规模语言模型驱动的启发式搜索与基于结构的评分相结合，并使用从量子化学模拟中训练出来的原子结构图神经网络（GNN）。

该框架将催化剂发现描述为一种不确定的环境，在这种环境中，代理（LLMs）根据计算化学反馈来追求能量上有利的催化作用。

在搜索的每一步，代理都会(1) 自动识别需要考虑的最佳特征集，(2) 根据识别的特征生成新的搜索提示，(3) 根据高级指令执行提示。

在每个步骤中确定的候选催化剂都会转换成催化剂-吸附剂结构的三维原子表征，该表征会评估催化剂的空间取向、反应途径中的能量障碍以及稳定性，从而产生催化剂适用性奖励。这种奖励促使大规模语言模型向能以最小外部能量进行反应的催化剂方向发展。这是开发环境友好型工业流程的重要一步�

本文介绍了一个新颖的假设生成和测试框架--ChemReasoner，它将大规模语言模型的知识空间与基于量子化学的反馈整合在一起。该框架可实现基于自然语言的推理，并具有源自计算化学方法的强大领域保证。此外，ChemReasoner-Planner 是一种由大规模语言模型规划的方法，在三类评估基准中的两类中，ChemReasoner-Planner 的表现优于专家选择的基于化学描述符的搜索。此外，论文还超越了仅根据吸附能筛选催化剂的范围，提出了一种推理反应路径和能量障碍的新方法。

系统和方法

ChemReasoner算法基于。由两个主要部分组成：(1) 通过规划和引导化学空间中的大规模语言模型进行启发式搜索；(2) 通过从密度泛函理论（DFT）模拟中学习的图神经网络（GNN）模型进行量子化学反馈。

启发式搜索的目的是针对用户指定的自然语言查询，从化学空间的不同区域系统地搜索候选词。具体做法是将原始查询（或提示）与相应的大规模语言模型答案结合起来，并应用不同的筛选标准，逐步将大规模语言模型的提示和答案与化学空间的缩小区域联系起来。这一过程如下图所示。本文采用波束搜索法进行启发式搜索。

本文的目标是探索化学描述符以设计最佳提示，从而使大规模语言模型为催化剂查询返回最佳候选催化剂。从一般提示_P0开始，使用一组行为对提示进行修改，以提高大规模语言模型在奖励函数 R 方面的输出。值得注意的是，ChemReasoner-Planner 生成了自己的行为空间 A。

搜索树被定义为一棵由（提示、答案、奖励）节点组成的分层树。这棵树的每个节点代表搜索空间中的一个状态（以下称为搜索或查询状态）。如果一个操作 a∈A 将一个提示修改为另一个提示，则节点之间是有联系的。从根节点到叶节点的路径称为推理路径�

根据 Sprueill 等人（2023 年）的研究，每个大规模语言模型提示都由三个结构化的部分组成：（1）自然语言问题；（2）包含或不包含目标催化剂特定化学描述符的列表；（3）描述如何将搜索从之前查询的候选催化剂转移到化学空间不同区域的关系运算符。它由一个结构化的内部表示法组成。

使用了三种关系运算符：（1）相似性（2）子分类（3）不相似性。每个大规模语言模型的答案代表一组候选催化剂，每个候选催化剂使用奖励函数进行评分。搜索从根节点开始，每个节点都会扩展为一组具有动作 a 的子节点。搜索树的每一层都会根据节点的奖励进行修剪。最后，当达到最大搜索深度时，奖励最高的节点将被选为对第一条提示的整体回应。

规划器负责根据上下文确定适当的行动，从而系统地扩展搜索。行动选择的依据是从搜索树的根开始追踪的先前查询和催化发现的完整序列。这种上下文基础能够以科学一致的方式自动限制下一个搜索方向。

考虑到搜索树中的任何节点，如果规划器执行以下查询（下图左上角的橙色方框），大规模语言模型就会执行该查询，以获得一组候选催化剂（如 Cu、Pd 等）。每个候选催化剂都会被转换成三维原子表示，并通过奖励函数进行评估。在搜索树的任何给定深度，所有候选催化剂都会被收集起来，只有一个子集会被选中用于下一次迭代。这一过程不断迭代，直到达到搜索树的最大深度。

一般来说，通过利用语言模型对搜索进行上下文扩展，ChemReasoner-Planner 可以平衡搜索，同时生成可解释且有科学依据的推理路径。每个奖励函数在回答输入问题时都会返回一个实数值，表示催化剂的好坏（越高越好）。本文实现了两种不同复杂度的奖励函数。

基于吸附能的奖励奖励催化剂最稳定键合结构的吸附能。计算开始时，先将催化剂（如 "铂"）和吸附剂（如 "一氧化碳"）的符号表示转换为三维原子结构（见右下方，再现）。

催化剂原子结构的稳定性和能量直接影响其催化活性和选择性。因此，需要计算出催化剂-吸附剂对的最稳定构型，并将其吸附能量作为衡量报酬的标准。优化过程（也称为松弛过程）会反复松弛三维结构的原子位置，直到找到最小能量值为止。然后利用 GNN 计算出该状态的吸附能。

基于反应途径的奖励通过考虑多个反应途径和中间阶段来衡量催化剂的好坏。它首先从大规模语言模型中检索反应途径，然后为每个反应途径的每个中间阶段计算能量函数。下图显示了两种不同催化剂的相同反应路径的两个实例。如图所示，从一个反应阶段进入下一个反应阶段所需的能量因催化剂而异。

直观地说，从低能态到高能态的转变可以看作是能量地形中的 "爬坡 "过程（图中的红色和蓝色箭头）。adst 在催化剂上的吸附能。

试验

目前正在进行实验，以评估一个将以大规模语言模型为指导的启发式搜索与量子化学反馈相结合的系统能否发现比单独使用最先进的大规模语言模型更有效的新型催化剂。实验重点关注三个关键研究问题

问题 1. 量化性能改进：与最先进的大规模语言模型查询相比，带有量子化学反馈的启发式搜索是否能产生更好的候选催化剂？
问题 2：关键组件的特征：控制计算复杂性与系统性能之间权衡的关键参数是什么？
问题3：大规模语言模型的假设检验：如何利用领域知识检验ChemReasoner生成的假设；需要进一步关注哪些领域才能使ChemReasoner的计算筛选更准确、更可解释？

该实验使用扩展版的化学推理查询基准作为数据集，其中包含 145 个查询。查询分为三大类--OpenCatalyst、BioFuels 和 CO2-Fuel。对于前两类，我们采用了 Sprueill 等人（2023 年）的查询，并添加了二氧化碳燃料子集。

OpenCatalyst 由一组来自开放催化剂项目 2020 数据集的吸附剂组成，要求提出对每种吸附剂具有强吸附性的催化剂（86 项查询）；BioFuels 以生物燃料开发的催化剂发现为目标（39 项查询）。39 项查询），这些查询已修改为针对金属催化剂进行奖励计算。最后，它专门针对将二氧化碳转化为甲醇和乙醇（平台分子），这两种物质用于生产燃料和化学品，是实现净零目标的原材料。

实验中使用的大规模语言模型包括 OpenAI GPT-3.5 和 GPT-4。最初，我们使用 LLama2 进行基准测试，但事实证明该模型在这一领域的指令跟随能力有限，因此很难对其进行评估；作为 GNN 奖励模型，我们使用了 OpenCatalysis 项目中的 GemNet-dT 模型。OpenAI 模型的推理是利用异步执行能力并行进行的；GNN 的推理是在 DGX2/V100 和 A100 系统的单个 GPU 上进行的。在这些设置下，我们通过实验评估了 ChemReasoner 的有效性和效率。

在本实验中，对 ChemReasoner 的两种不同变体进行了评估：ChemReasoner-Expert 是一种带有由催化专家定义的操作空间的实施方案。这些操作（关系运算符和描述符）包括

纳入标准：高活性、高选择性、低成本、新颖性、低毒性、高结合能、高转换效率、高可用性。
排除标准：低活性、低稳定性、低选择性、低结合能、高成本、高毒性、低分散性、低孔隙度、高稀缺性、低转换效率。
催化剂类型：金属催化剂、单金属催化剂、双金属催化剂、三金属催化剂。
与先前候选集的关系：包含不同元素、包含相似元素、引入新元素、包含先前候选集的元素。

这些行动的采样概率相同，不会重复使用相同的标准。另一方面，ChemReasoner-Planner 利用大规模语言模型建议的行动扩展搜索空间，无需专家说明。

如下表所示，两种ChemReasoner实现都明显优于GPT-4基线。其中，ChemReasoner-Planner 和 GPT-4 的组合在开放催化和生物燃料查询类别中表现最佳，而 ChemReasoner-Expert 在二氧化碳转化查询中表现最佳。结果如下表所示。

此外，如下表所示，ChemReasoner-Expert 的前 1 个预测结果与当前用于甲醇合成的商用催化剂具有很高的相似度。在计算ChemReasoner两个变体中包含最佳解决方案的节点的平均深度时，可以发现使用 GPT-4 后平均搜索深度降低了 11.28%。这一点在ChemReasoner-Expert中比在ChemReasoner-Planner中更为明显，性能的提高是通过规划算法实现的。

值得注意的是，ChemReasoner-Expert在二氧化碳转化查询方面表现出色。特别是考虑到它是基于 GPT-3.5-turbo 的，其性能可能与复杂的奖励函数有关。对于与基于吸附能的奖励函数相关的查询（OpenCatalyst 和 Biofuels），即使查询没有明确提及吸附能作为目标，大规模语言模型中的良好催化概念（通常是低成本、高选择性等）通常也与低吸附能（高奖励）相关。(高回报）曲线相关联。因此，规划者可以有效地利用大规模语言模型作为优化功能，寻找能量有利的催化剂。然而，LLM 中好催化剂的概念可能并不总是与二氧化碳转化相关的基于复杂反应路径的奖励函数相匹配；使用类似于 RLHF（欧阳等人，2022 年）的方法对大规模语言模型进行微调是一项具有复杂奖励函数的下游任务。这表明这是一种很有前途的方法。