面向未来化学研究和新药开发的转换器和大规模语言模型

大型语言模型 17/06/2024

三个要点

✔️ 变压器对化学领域产生影响，并在新药发现和开发过程中发挥重要作用
✔️ 开发将化学任务作为文本序列处理的方法，提出更高效的新药开发流程
✔️ 针对特定任务的模型在分子转化任务（如反应预测和反向合成分析）中也取得了出色的表现

Transformers and Large Language Models for Chemistry and Drug Discovery
written by Andres M Bran, Philippe Schwaller
(Submitted on 9 Oct 2023)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Chemical Physics (physics.chem-ph)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

长期以来，机器学习领域一直关注人类语言的处理和精确建模。其背后的理念是，语言对于人类的推理能力至关重要。精确建模的语言模型已被证明可以增强各种信息处理任务，并有可能为多个行业带来革命性的进步。特别是自然语言处理领域，由于计算基础设施的改进、算法的突破和丰富数据的激增，已经取得了重大进展。

这一进步也影响到化学领域，而化学是发现和开发新药的基础。理解化学语言并对其进行准确建模对于制药行业的研发工作至关重要。将机器学习技术应用到化学领域，可以有效地分析和解读大量的化学数据和文献，促进新药的发现。

2017 年推出的 Transformer 架构为自然语言处理带来了革命性的变化。该模型基于一个名为 "注意层"（Attention Layer）的核心结构，能够捕捉单词和子单词在上下文中的含义。此后，Transformer 不断发展，在翻译、情感分析和总结等各种语言建模任务中表现出卓越的性能。

在化学领域，这项技术也正在带来一场新的革命。研究人员正在开发以文本序列形式处理化学任务的方法，而开放数据集和基准的引入则简化了新药研发过程中基本难题的解决。他们还致力于通过开发多模态模型来弥补化学建模与自然语言之间的差距，这些模型包含了更多的数据类型，如各种分析技术和合成程序。

目前，新药物的研发进程正在飞速发展。转化器模型对化学领域产生了重大影响，并在塑造化学和药物发现的未来方面发挥了核心作用。本文简要介绍了分子和反应的文本表征，随后讨论了单模式和多模式特定任务转换器，最后讨论了大规模语言模型及其在化学和新药研发中的潜在应用。

有机化学建模

化学在许多方面都与语言相似。不仅人类语言被广泛应用于信息交流，化学变化背后的规则本身似乎也形成了自己的语言。如果我们能够准确理解并模拟这种 "化学语言"，就能解开化学的复杂性，为新应用打开大门，例如自动反向合成规划和高效探索化学空间。

然而，化学语言有别于英语和汉语等传统语言。在有机化学中，语法是根据分子图和反应条件构建的，这一直是变压器技术直接应用的障碍。克服这一难题的关键在于几十年来一直沿用的将分子表示为线性字符串的传统方法。事实上，近年来这一领域出现了新的改进和建议，有可能进一步加深我们对有机化学的理解。

有机化学研究可以说是发现新分子和新反应、对其进行分析并将其编入数据库的过程。研究人员使用的资料来源多种多样，包括科学论文、专利、手册以及最新的计算数据库。为了更方便地存储和检索这些信息，自 20 世纪 80 年代以来，简化分子输入行输入系统（SMILES）被提出并广泛使用。

SMILES 是一种用线性字符串表示分子的方法，它从特定原子开始，依次列出分子中的所有其他原子。在这种表示方法中，键类型、分支、环结构和立体化学等表示分子的重要信息使用特殊字符表示。这样，有机化学的广泛领域就可以用字符串来表示。

然而，分子机器学习应用的出现暴露了 SMILES 表示法的局限性。例如，这种表示法缺乏鲁棒性，导致了生成无效分子的问题。为了应对这一挑战，我们引入了一种新的基于字符串的表示方法--SELFIES（自引用嵌入字符串）。这种方法具有独特的结构，可保证任何给定的字符串都能映射到有效的分子，并已应用于新药发现和分子生成等领域。

此外，这些分子文本表示法还可用于轻松编码化学反应。反应物和生成物可以用点".并用">"符号分隔，以表示化学方程式的语法。催化剂和试剂等细节用">>"符号穿插表示。这样，"A.B>催化剂。试剂>C.D"，其中反应用 SMILES 中广泛使用的 "反应 SMILES "形式表示。

化学领域引入的转换器架构也为解决化学问题提供了一种新方法。这项技术使化学问题能够以语言的形式表达，并转化为一系列标记，从而在化学领域取得了变革性的进展。该技术已在反向和正向合成、预测分子性质的分子回归以及反应分类等广泛的预测任务中展示了其强大功能。

此外，Transformer 的应用还超出了单纯的分子图操作。它还能通过模拟人类语言，在需要深入理解实验条件和标准程序的任务中取得成果，例如推断实验程序。这为化学领域带来了前所未有的、多样化的解决问题的可能性。

变压器结构的不同变体使这种广泛的应用成为可能。根据具体应用，架构的不同部分以编码器-解码器模型、仅编码器和仅解码器的形式加以利用。因此，我们开发了针对不同应用进行优化的模型，如从一个序列转换到另一个序列、从数据中提取丰富表征的任务、生成应用等。

变压器结构极大地改善了语言之间的翻译，从而改变了世界。然而，这项技术不仅跨越了语言障碍，还在化学领域带来了革命性的进步。它成功地将化学反应和分子结构从一种 "语言 "翻译成另一种 "语言"。

Schwaller等人将化学反应预测视为从一种形式（前体）"转换 "到另一种形式（生成物的 SMILES）的任务，并在该领域取得了突破。该技术在化学反应预测领域取得了巨大成功，并确立了新的标准。此外，该技术还被应用于反向合成分析等其他复杂任务，提高了研究人员预测生成特定化合物所需的反应物和试剂的能力。

这项技术的应用范围进一步扩大，如 Irwin 等人提出的 Chemformer 模型，可以针对各种化学任务进行预训练，然后针对特定应用进行专门化。这提高了化学问题解决的灵活性和适用性。Tu 和 Coley 的研究还开发了一种新方法，可直接将分子编码为分子图，并将其转化为 SMILES。这种方法进一步拓展了转换器在化学问题求解中的潜力，与以前的方法相比有了显著改进。

表征学习在化学领域也发挥着重要作用。将分子和反应转化为矢量形式具有广泛的应用，包括数据库搜索的相似性评估、反应产率预测和有毒化合物的识别。这些应用在新药研发过程中至关重要。

Wang 等人的研究表明，通过生成反应表征并将其与传统的人工分子表征进行比较，下游回归任务的准确性得到了提高。这凸显了变压器编码器在化学任务中的有效性。另一项研究用分类层取代了变换器的解码器部分，以学习化学反应的类别预测。由此产生的矢量表征被用于可视化和探索化学反应数据库，揭示了反应是如何按数据源和化合物属性分组的。

这种无监督学习的应用在生物化学领域也得到了发展，Rives 等人在无标签的蛋白质序列上学习转换器模型，从而学会了 "蛋白质语言"，实现了蛋白质特性预测和蛋白质折叠预测。此外，这些模型还显示出超越天然蛋白质的通用能力，为从头生成新蛋白质铺平了道路。

它还发现 Transformer 能够创建化学反应的内部表示，并在整个过程中精确计算原子映射。这一发现的成果 RXNMapper 在速度、并行性和准确性方面都优于其他方法。这种方法同样适用于酶反应，为识别蛋白质序列的活性位点开辟了新途径。

此外，化学变化过程是一个多方面的过程，并不局限于化学结构。它涉及多种数据类型和模式，从用于描述分子和实验结果的人类语言，到以数字序列和图像形式呈现的实验数据。

鉴于这种多样性，化学家们提出了在分子世界和人类语言之间架起桥梁的任务。例如，"分子捕获 "任务用自然语言描述了一种特定的分子。这涵盖了分子特性、起源和药物相互作用等广泛特征，并以简单的英语表达。此外，还开发了新的模型，以实现分子与自然语言之间的相互转换。这样就可以执行多种任务，如根据文本查询生成分子、预测反应结果和反向合成。

该技术还可用于预测对合成工艺设计至关重要的实验步骤。已开发的模型可生成特定的实验实现步骤，如添加物质、搅拌和纯化，在这些步骤中，仅预测反应是不够的。

此外，还开展了将实验结果与分子结构联系起来的进一步工作，并利用计算生成的红外光谱训练了用于结构预测的变换器模型。在从红外光谱预测官能团方面，这种方法比以前的方法取得了更好的效果。

这表明，变压器架构具有在化学和生物化学等更广泛领域进行创新的潜力，而不仅仅是处理文本。

超越特定任务模型的应用

最近的技术发展促使人们迅速关注基础模型，这些模型是在大量数据上预先训练出来的。这些模型通过学习互联网上的大量文本数据来获取广泛的知识。正如我们所看到的，特别是通过扩展转换器架构，这些模型有能力在各种情况下生成类似人类的文本。这些模型还可以用较少的数据为特定目的量身定制。

ChatGPT 的发布不仅迅速普及了机器学习，还引发了一场关于智能本质的激烈讨论。ChatGPT 的发布不仅迅速普及了机器学习，还引发了人们对智能本质的深入讨论。但与此同时，它也为错误信息传播等潜在问题敲响了警钟：ChatGPT 的影响力和可访问性引发了人们对如何生成和消费媒体的重新思考，并促使人们仔细考虑其潜在影响。

ChatGPT 的成功和普及得益于其友好的用户界面，每个人都可以自由访问并直观地使用它，以及它的实用性，它在训练任务之外的任务中也表现出色。这几点揭示了 ChatGPT 和类似模型的强大功能，并表明其具有进一步创新应用的潜力。

此外，机器学习算法的发展和ChatGPT大规模语言模型数据量的增加也创造了一种挑战技术极限的新趋势。随着这些模型规模的扩大，它们能够更有效地执行所学任务。这种现象在语言模型中尤为明显，并被称为 "缩放定律"。这些定律已成为研究人员的重要工具，用于识别随着模型规模扩大而出现的性能提升趋势，并预测大型模型的能力。

然而，"突现能力 "现象正在引起人们的关注，这种能力不仅能增强现有能力，还能随着模型的成长而出现全新的能力。在小规模模型中，这些新能力是不可预测的，而当模型达到一定规模时，这些新能力就会突然出现。例如，有人观察到，计算预算有限的语言模型表现随意，而超过一定规模后，它们在任务中的表现就会明显改善。

这些新出现的能力包括用于逐步推理的思维链（CoT）推理和遵循指令的能力，这些能力往往会降低传统小规模模型的性能，但却能提高达到特定规模的模型的性能。这使得语言模型能够在不进行显式学习的情况下，利用自然语言查询有效地解决包括推理在内的一系列任务。大规模语言模型所展示的这些非凡能力有可能在包括化学在内的各个领域的应用中产生革命性的影响。

化学中的大规模语言模型

变压器架构在化工领域的应用也备受关注。这是为了对化学任务进行精确编码和精确处理。大多数化学信息都是通过人类语言表达的。化学推理，如反应机理和药物作用模式的描述，从根本上说是用人类语言表达的。但它也需要图形和图像等非文字元素。它们不能仅用人类语言表达。这就提出了大规模语言模型能在多大程度上再现化学推理以及此类模型的范围等问题。

其中，微调和上下文学习技术是将这些大规模、预先学习过的语言模型适应特定应用的主要手段。这些技术在许多应用中都表现出色，并侧重于大规模语言模型提供的新学习范式。例如，GPT-3 等大规模语言模型通过微调可以高效地解决化学和材料科学领域的各种任务。

该领域的一个重要应用是分子生成。迄今为止，使用线性字符串表示法生成分子的模型（如 SMILES 和 SELFIES）一直在该领域占主导地位。然而，Flam-Shepherd 和 Aspuru-Guzik 使用语言模型直接生成三维原子位置，为这一领域带来了新的可能性。这些模型可以生成通过各种形式的训练获得的结构，如晶体和蛋白质，其性能可与最先进的专家设计算法相媲美，同时克服了传统方法的局限性。

当数据稀缺或难以获得时，大规模语言模型在化学中的应用尤其有用。这些模型的创新能力有望推动化学研究取得新进展。这些技术所提供的灵活性及其快速揭示数据中复杂关联的能力，将从根本上改变机器学习在科学中的应用方式。

此外，语言模型最显著的能力之一就是前面提到的逐步推理能力。这种能力通过链式思维（CoT）提示激活，包括有效使用工具的能力。事实证明，这些进步大大提高了语言模型在各种任务中的表现，CoT 提示引导语言模型按照一系列推理步骤解决任务。这样就能进行符号运算，运算方式类似于人类进行算术运算，同时跟踪中间步骤。

使用工具的能力是语言模型的另一个重要特性，它可以调用外部计算工具，并通过搜索引擎查询和计算器访问来丰富知识。这使得大规模语言模型在一系列任务中的性能得以提高，而这些任务以前是无法完成的。这一新的进步表明，有可能将这些能力结合起来，创造出更强大、更有用的功能。

最近，模块化推理、知识与语言（MRKL）和推理+行动（ReAct）系统应运而生，它们结合了现代大规模语言模型的 CoT 和工具使用能力。通过将外部工具纳入 CoT 环境，这些代理的表现优于其他基于大规模语言模型的方法。特别是，工具的有效使用部分解决了 LLMs 的单一模态问题，使它们能够处理不同类型的输入数据，在模拟环境中做出实时决策，甚至与真实世界的机器人平台进行交互。

尽管大规模语言模型容易产生错误的内容和不准确的信息，但在化学中部署代理证明了这些模型在化学应用中的潜力。来自世界各地的研究人员合作展示了 14 个用例，包括提高计算工具可访问性的包装器、反应优化助手、知识解析器和合成器。这些进展有可能大大提高化学计算应用的适用性和可访问性。特别是布兰和考克斯等人开发的一套计算化学工具，显示了化学任务规划和执行的效率，这些模型提供了基于真实世界数据的解决方案，抑制了产生"幻觉 "答案的倾向。充当总助手的绝佳方式，并使计算工具更易于使用，从而加速科学发现。