通过大规模语言建模实现化学范式的转变，并将其应用于分类、回归和逆反应设计

大型语言模型 06/06/2024

三个要点
✔️ 通过以文本形式表示化学问题，提出了进一步扩大 GPT 应用范围的潜力
✔️ 证实即使数据点较少，它的性能也优于传统的专业机器学习模型
✔️ 在发现新化合物和设计新材料方面比传统方法更高效提出比传统方法更有效的发现新化合物和设计新材料的方法

Leveraging Large Language Models for Predictive Chemistry
written by Kevin Maik Jablonka,Philippe Schwaller ,Andres Ortega-Guerrero ,Berend Smit
(Submitted on 17 Oct 2023)
Comments: Published on ChemRxiv.
Subjects: Theoretical and Computational Chemistry

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

大规模语言模型在最近的机器学习发展中受到特别关注。这些模型因其简单性而备受关注，它们可以为给定的短语生成自然的文本续篇，而这些文本续篇似乎并非由机器撰写。

科学领域的实际例子，如科学论文摘要的编写和特定编程任务代码的生成，都显示出显著的效果。此外，研究还表明，这些模型即使没有经过明确的训练，也能解决简单的表格回归和分类任务。

这些结果表明，我们有可能找到解决我们没有答案的科学问题的办法。这些模型在化学领域的应用前景尤为广阔，因为大多数问题都可以用文字形式表达。改变 MOF（金属有机框架）中的金属如何改变其在水中的稳定性？"模型可能会为那些仅靠实验或理论无法回答的问题提供新的答案，例如："改变金属有机框架中的金属如何改变其在水中的稳定性？

在化学和材料科学领域，研究总是基于有限的实验数据。在这种情况下，生成预训练变换器 3（GPT-3）等模型被认为即使数据点很少也能提供有意义的结果。在本文中，我们展示了基于 GPT-3 提供的数据，它在几个化学相关问题上的表现优于传统的专家机器学习模型。

它还重点关注这些模型的性能，这些模型是在从互联网上收集的大量文本语料库中训练出来的，并根据特定任务进行了微调。这使得模型不受提示结构的影响，可以更灵活地应用。

通过对各种数据集和应用进行基准测试，这些模型已经证明它们可以回答从分析材料特性到提出合成方法甚至材料设计等各种科学问题。这种方法尤其使机器学习能够为机器学习已经解决的问题提供新的视角和答案。

下图概述了本文涉及的数据集和任务。

在本文中，GPT-3 在涵盖分子、材料和反应等化学空间的数据集上进行了基准测试。这些数据集研究了一系列任务，包括分类（例如，根据分子、材料或反应的文字表述预测类别（"高"、"低 "等））、回归（预测浮点数）和逆向设计（预测分子）。 MOF 效果图在 iRASPA 中生成。创建者

使用大规模语言模型进行分类和回归

本文重点介绍一类新的结构金属--高熵合金，并利用 GPT-3 模型探讨其潜在应用。高熵合金由于其复杂性，允许近乎无限的金属组合，从实用角度来看，了解给定的金属组合将形成固溶体还是多相是非常重要的。

具体来说，"高熵合金的组成相是什么？通过从可能的单相或多相答案中进行选择，我们对 GPT-3 模型进行了微调，以回答 "高熵合金的组成相是什么？在此过程中，使用 OpenAI API 对模型进行调整仅花费了几分钟时间，并为特定输入 "Sm0.75Y0.25 "输出了 "1 "的答案。这意味着是一个单相，是微调过程中取得显著效果的一个例子。

选择这种方法是为了与专门为模拟特定化学反应而开发的最先进的机器学习模型进行直接比较。有趣的是，只用了大约 50 个数据点，该模型的性能就能与 Pei 等人的模型相媲美，后者是用 1000 多个数据点训练出来的。

我们还在研究分子、材料和化学反应的一系列截然不同的性质，希望这些结果能为其他性质带来类似的结果。研究的重点是传统机器学习方法已被开发并公认为各自领域基准的应用。此外，研究结果还与 Matbench26 基准任务套件中性能最佳的模型进行了比较。

经过微调的 GPT-3 模型与现有基线之间的比较，确定了低数据域中学习曲线的交点，并测量了要达到与传统 ML 模型相同或更好的性能所需的数据量。因此，GPT-3 模型往往能用较少的数据取得与之相当的结果，在数据集规模有限的情况下尤其如此。

论文还探讨了一系列分子特性，从 HOMO-LUMO 间隙和水溶性到它们作为有机光伏材料的性能。在材料方面，论文深入探讨了合金、金属有机框架和聚合物的特性；在反应方面，论文研究了有机化学中重要的交叉偶联反应。

虽然 GPT-3 模型在低数据量领域表现更好，但随着数据量的增加，传统机器学习模型往往会迎头赶上。这可能是因为 GPT-3 对额外数据和相关性的要求较低。不过，微调过程的优化问题尚未解决，在化学背景下更好地标记和调整学习参数可能会带来进一步的改进。

随着 OpenAI 的 GPT-3 和 GPT-4 等大规模语言模型的发展，本实验中的方法也得到了相应的扩展。特别值得注意的是，良好的性能不仅是通过微调实现的，也是通过一种称为 "上下文学习 "的方法实现的。这种在推理过程中进行学习的方法在现代 GPT 模型中尤为有效。

此外，这项研究并不局限于 OpenAI 模型，它还表明，通过使用参数高效微调技术，大型开源语言模型也能在消费级硬件上取得良好效果。这使我们能够提供 Python 软件包，轻松地将这种方法应用于新问题。

分子和材料的表示方法是 ML 应用中的关键问题之一。文献中主要使用 IUPAC 名称，但也有人尝试使用 SMILES 和 SELFIES 等独特的线性编码方式。在用自然语言训练的 GPT-3 模型中，化学名称可能比这些线性表示法更受青睐。为此，我们正在分子性质预测任务中研究不同表示方法的效果。有趣的是，无论采用哪种表示方法，显然都能获得良好的结果。特别是，使用分子的国际理论化学和应用化学联合会（IUPAC）名称往往能获得最佳性能，这使得非专业人员可以相对容易地根据特定应用对 GPT-3 进行微调。

除了分类问题，更高级的挑战是开发回归模型。这意味着能够预测连续属性，如多孔材料中气体吸附的亨利系数。由于使用了预先训练的语言模型，如果不修改模型结构和学习方法，就很难直接预测实际值。然而，在实际应用中，预测的准确性总是有限的。例如，对于材料的亨利系数，通常 1%（或特定的小数位数）的精度就足够了。

考虑到这一限制，我们假设将亨利系数四舍五入到这一精度的分子作为训练集，并且 GPT-3 模型可以对这些数字进行插值。将这一回归任务转化为分类问题的一种方法是创建微环。这种更具挑战性的回归任务需要更多的数据来调整 GPT-3 模型，而这种方法需要的数据要多得多，因此优势较少，但可以产生接近最先进水平的性能。

此外，机器学习在化学领域的一项挑战性任务是开发能够生成具有特定性质分子的模型，即 "逆向设计"。这方面主要有两种方法。一种是在有大量数据集的情况下训练生成模型，如变异自动编码器或生成对抗网络。另一种是在数据集有限的情况下，使用遗传算法等进化技术生成新的潜在分子。

尤其值得一提的是，反向设计中使用了 GPT-3 等先进的语言模型。即使数据很少，这些模型也能预测分子和材料的特性，从而在研究的早期阶段就能提出新材料。这在实验数据匮乏、理解有限的情况下尤其有用。

通过分子光开关的例子，展示了 GPT-3 如何生成特定问题的准确答案。反向设计过程只需将问题和答案颠倒过来即可进行，生成的分子经验证符合真实化学反应的条件。

量化生成分子的新颖性是另一个重要步骤。在本文中，我们评估了生成的分子在多大程度上包含了已知数据库中未包含的新结构。这证实了 GPT-3 提出真正新化合物的能力。此外，在生成过程中调整 softmax 温度可以生成更自然、更具有化学意义的分子文本。对这一参数的微调可以控制生成多样、新颖但化学性质无效的结构的风险。

本文表明，逆向设计为化学研究开辟了新的可能性。特别是，这种方法有可能加速化学领域的创新，因为微调自然语言模型比学习传统的机器学习模型更容易。

摘要

正如本文所显示的，基于 GPT-3 的机器学习系统在解决化学领域的各种问题时表现出了令人惊讶的效果。特别是，对于无法使用 SMILES 等传统线条表示法的化合物，该系统表现出了卓越的效果。这表明，GPT-3 具有从文本中提取相关性的超强能力，并有可能在没有化学学习背景的情况下超越专门的机器学习模型。

该技术应用广泛，可根据自然语言提出的问题进行训练和使用。这种方法为未来的机器学习研究树立了新的标杆，表明新的模型应以超越这种简单方法为目标。

GPT-3 的使用类似于研究环境中的文献检索，为化学家利用其积累的知识开辟了新的途径。 GPT-3 专为从文本片段中发现相关性而设计，由于相关性与化学高度相关，它为化学家和材料科学家提供了新的可能性。它为科学家提供了新的可能性。

论文还指出，下一步是利用 GPT-3 进一步确定这些相关性，以加深理解。GPT-3 是一种工具，能让科学家更有效地利用他们多年积累的知识。如果再加上研究数据中未包含的许多科学成果和实验数据，效果会更加显著。这种先进的方法有可能对未来的化学研究产生革命性的影响。