大规模语言模型对科学发现的影响：使用 GPT-4 的初步研究

大型语言模型 05/02/2024

三个要点
✔️ GPT-4 也正在成为科学发现活动的主要贡献者。
✔️ 介绍了 GPT-4 的广泛应用，包括药物发现、生物学、计算化学、材料设计和偏微分方程。报告还介绍了这些应用中的各项技术。
✔️ 总结了目前 GPT-4 应用的不足之处，并概述了未来的发展前景。

The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4
written by Microsoft Research AI4Science, Microsoft Azure Quantum
(Submitted on 13 Nov 2023 (v1), last revised 8 Dec 2023 (this version, v2))
Comments: Accepted on arXiv
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

最近，自然语言处理领域取得了突破性进展，出现了功能强大的大规模语言模型（LLM），它们在自然语言理解、生成和翻译等广泛领域以及语言处理以外的任务中展现了非凡的能力。

本报告深入探讨了 LLM 在科学发现和研究方面的性能，重点是最先进的语言模型 GPT-4。研究涵盖一系列科学学科，包括药物发现、生物学、计算化学（密度泛函理论 (DFT) 和分子动力学 (MD)）、材料设计和偏微分方程 (PDE)。

在科学任务中评估 GPT-4 对于发掘 GPT-4 在不同研究领域的潜力、验证特定领域的专业知识、加快科学进步、优化资源分配、指导未来模型开发以及促进跨学科研究至关重要。本文的研究方法主要包括由专家主导的案例评估，这些评估提供了模型对复杂科学概念和关系理解的定性见解。

作者的初步研究表明，GPT-4 在各种科学应用中显示出巨大的潜力，适合处理复杂的问题解决和知识整合任务。作者对 GPT-4 在上述领域（如药物发现、生物学、计算化学和材料设计）的表现进行了分析，并强调了它的优势和局限性。从广义上讲，作者评估了 GPT-4 的知识库、科学理解能力、科学数值能力和各种科学预测能力。

在生物学和材料设计领域，GPT-4 拥有丰富的领域知识，可满足特定要求。在药物发现等其他领域，GPT-4 具有强大的属性预测能力。不过，在计算化学和 PDE 等研究领域，虽然 GPT-4 在协助研究人员进行预测和计算方面大有可为，但仍需进一步努力提高其准确性。

尽管 GPT-4 的能力令人印象深刻，但在定量计算任务方面仍可加以改进。例如，需要进行微调以达到更高的精度；需要强调的是，LLM 和大规模机器学习领域正在快速发展，该技术的未来版本可能会超越本报告所讨论的功能。特别是，将 LLM 与专门的科学工具和模型相结合，以及开发基础科学模型，是两条大有可为的探索之路。

介绍

人工智能（AI）的快速发展催生了复杂的大规模语言模型（LLM），如 OpenAI 的 GPT-4、谷歌的 PaLM 2、Anthropic 的 Claude 和 Meta 的 LLaMA 2。在抽象、理解、可视化、编码、数学、法律以及理解人类动机和情感等各种任务中，LLM 都表现出了卓越的性能。

LLM 不仅成功地融入了文本领域，还融入了其他领域，如图像处理、语音识别，甚至强化学习，这证明了 LLM 的适应性和广泛的应用潜力。此外，LLMs 还可用作控制器/协调器，协调其他机器学习模型完成复杂任务。在这些 LLM 中，GPT-4 因其卓越的能力而备受关注。

最近的论文甚至认为，GPT-4 可能显示出人工智能（AGI）的早期迹象。由于 GPT-4 在一般人工智能任务中的非凡能力，它在科学界，特别是在医学、医疗保健、工程和社会科学领域引起了广泛关注。本研究的主要目的是考察 LLM 在自然科学研究方面的能力。由于自然科学范围广泛，不可能涵盖所有分支学科，因此重点将放在某些领域，如药物发现、生物学、计算化学、材料设计和偏微分方程 (PDE)。

作者的目的是广泛介绍 LLM 的性能以及 LLM 在这些特定科学领域的潜在应用，重点是最先进的 LLM GPT-4。本报告的概览见图 1.1。

(本文仅介绍与药物发现有关的技术。对其他领域感兴趣的读者可参阅原文）。

图 1.1：本报告概览

药物研发

药物发现是确定和开发治疗或预防特定疾病或病症的候选新药的过程。这一复杂而多面的领域旨在通过创造安全有效的靶向治疗药物来改善人们的健康和福祉。药物发现的重要性在于它能够发现和开发治疗疾病、减轻痛苦和改善人们健康的新疗法。药物发现是制药业的重要组成部分，在医学发展中发挥着关键作用。药物发现涉及一个复杂的多学科过程，包括目标识别、先导化合物优化和临床前测试，最终开发出安全有效的药物。评估 GPT-4 在药物发现中的能力对于加速药物发现过程、降低发现和设计成本以及提高创造力具有巨大潜力。在本章中，我们首先通过定性测试研究 GPT-4 在药物发现方面的知识，然后通过定量测试研究其在药物与靶点相互作用/结合亲和力预测、分子性质预测和反向合成预测等几个关键任务方面的预测能力。

作者认为，GPT-4 在药物发现方面具有巨大潜力：

- 知识广博：GPT-4 对药物发现的关键概念有广泛的了解，包括单个药物、靶蛋白、小分子药物的一般原理以及药物发现过程各个阶段面临的挑战。这种广泛的知识基础使 GPT-4 能够在广泛的药物发现任务中提供有用的见解和建议。

- 关键任务的多功能性：GPT-4 等 LLM 可支持药物发现中的多项重要任务，包括

- 分子操纵：分子操纵：GPT-4 可以改变现有的分子结构，生成新的分子结构，从而有可能发现新的候选药物。

- 药物目标结合预测：GPT-4 可以预测分子与其目标蛋白质之间的相互作用。

- 分子特性预测：GPT-4 可预测分子的各种物理化学和生物特性。

- 反向合成预测：GPT-4 可以预测目标分子的合成途径，帮助化学家设计高效、经济的合成策略（图 2.23）。

- 从头生成分子：GPT-4 可根据文字说明从头生成分子。这种新分子生成功能是一种宝贵的工具，可用于确定潜在的候选新药，以满足尚未得到满足的医疗需求。

- 编码能力：GPT-4 强大的编码能力将在未来大大减少人力；GPT-4 是支持药物发现研究的有用工具，但必须认识到其局限性和潜在错误。

为了更好地利用 GPT-4，我们为研究人员提供了一些提示：

- SMILES 序列处理难题：GPT-4 可能难以直接处理 SMILES 序列。为了提高对模型的理解和输出，最好尽可能提供药物分子的名称及其描述。这样做将为模型提供更多的背景信息，并提高其生成相关准确响应的能力。

- 定量任务的局限性：虽然 GPT-4 在定性任务和问题方面表现出色，但在定量任务方面可能会面临局限性，例如对评估数据集中的分子特性和药物与目标结合进行数值预测。在这种情况下，建议使用 GPT-4 输出作为参考，并使用专用的人工智能模型和科学计算工具对其进行验证，以获得可靠的结论。

- 重复检查生成的分子：使用 GPT-4 生成新分子时，必须验证生成结构的有效性和化学性质。

药物发现的关键概念

・实体翻译

这里的重点是评估 GPT-4 在翻译药物名称、IUPAC 术语、化学式和 SMILES 表达式方面的性能。

药物名称、国际理论化学和应用化学联合会命名法、化学式和 SMILES 字符串是理解和交流药物分子化学结构和性质的重要基石。这些表述对于研究人员有效交流、检索和分析化合物至关重要。图 2.2 和 2.3 展示了一些例子。

第一个示例为化学式、IUPAC 名称和指定药物名称生成 SMILES。输入的药物是阿法替尼（一种用于治疗非小细胞肺癌（NSCLC）的药物）。如图 2.2 所示，GPT-4 将化学式正确输出为 C24H25ClFN5O3，IUPAC 名称也正确，因此 GPT-4 能识别阿法替尼这种药物。

但是，SMILES 并不正确。因此，GPT-4 被要求生成 SMILES。遗憾的是，如图所示，尽管明确指示 GPT-4 要 "注意每种原子类型中的原子数量"，并让它根据正确的 IUPAC 和化学式生成，但在某些尝试中生成的 SMILES 序列仍然不正确。

在图 2.3 中，要求 GPT-4 翻译 IUPAC 名称和 SMILES 序列并输出化学式。如图所示，从 SMILES 序列到 IUPAC 名称的翻译是正确的，但相反方向的翻译却不正确。此外，生成的化学式在两个翻译方向上都不正确。这两种情况表明，GPT-4 很容易理解和生成 IUPAC。

由于 GPT-4 基于子字表示法，因此 GPT-4 中可能使用了标记化方法。这一假设也可以解释为什么生成的化学式是基于每种原子类型的计数，而这并不总是正确的（如图 2.3 所示）。

图 2.2：实体翻译示例。给定一个药物名称，生成其化学式、IUPAC 名称和 SMILES。第一个分子图是阿法替尼的真实二维结构，后四个分子图由 GPT-4 生成的 SMILES 序列翻译而来。

图 2.3：IUPAC 名称和 SMILES 的翻译。

・记忆知识和信息

评估 GPT-4 在药物发现方面的知识和信息记忆能力。首选药物仍然是阿法替尼，案例如图 2.4 所示。

首先，当要求 GPT-4 介绍药物阿法替尼时，GPT-4 回答了多条信息，包括分子类型、靶受体、FDA 认证时间、功能、途径和副作用；Pubchem 和 DrugBank 检查显示，GPT-4 提供的信息清晰、正确、表明 GPT-4 了解阿法替尼。

接下来，我们进一步询问阿法替尼的化学特性，这对于真正理解分子药物非常重要。在图 2.5 中，GPT-4 回答了有关阿法替尼的一系列性质，包括分子量、溶解度、XLogP3 和氢键受体的数量。(1) 介绍的大多数性质都是正确的。(2) 有些性质不正确。特别是与计数相关的结果，如重原子数不正确。(3) 有趣的是，生成的阿法替尼的 SMILES 符号也不正确。

这与上一小节的观察结果非常吻合，表明 SMILES 的生成对 GPT-4 来说仍然是一个挑战。

图 2.4：GPT-4 中有关药物阿法替尼的一般信息和化学信息。关于阿法替尼的大部分知识都是正确的。

图 2.5：GPT-4 药物阿法替尼的分子特征。

・分子操作

分子操作是通过改变分子结构来实现所需的特性或功能。在制药业，分子操作可以优化候选药物化合物，从而提高药效、减少副作用并改善药代动力学特性，这对于设计高效安全的疗法至关重要。

图 2.7 展示了一个要求 GPT-4 协助药物分子操作的案例研究。具体来说，Asciminib 是 BCR::ABL1 激酶活性的第一类异位抑制剂，最近已被批准用于治疗二线治疗失败或有 T315I 突变的慢性髓性白血病慢性期患者。

如果首先要求 GPT-4 将 asciminib 中的氯（Cl）替换为元素周期表中最下面一行的元素（实际上是溴（Br））来修改 asciminib，GPT-4 知道该元素并成功进行了替换。如果进一步要求 GPT-4 将吡咯烷替换为六元环，将酒精替换为氟化物，GPT-4 显示了正确的过程，但有趣的是，结果却是错误的。

经过多轮指导和修正，GPT-4 最终能正确修正所需的分子。因此，GPT-4 拥有强大的知识，但如果没有具体的用户反馈和逐步检查，GPT-4 可能会出错，潜力巨大。还有

图 2.7：Asciminib 操作；GPT-4 尝试按照说明操作，但修正结果不正确。经过反复指导，GPT-4 最终做出了正确的修正。

・关于药物发现的宏观问题

上述评估更侧重于单个药物和分子。在此，我们将进一步测试 GPT-4 在药物发现方面的宏观问题。在图 2.8 中，我们首先提出了有关利平斯基 "五法则 "的基本问题。

GPT-4 为评估化合物的可药性提供了正确答案和合理解释。在图 2.9 中，GPT-4 是一个介绍药物发现主要挑战的问题。这是一个笼统而宽泛的问题，没有标准答案；GPT-4 答案的语义性质意味着 GPT-4 具有药物发现方面的宏观知识。

图 2.10 中的最后一个案例是关于人工智能和机器学习如何帮助药物发现，GPT-4 的回答很好，很全面，涵盖了人工智能可能有用的一系列方面，包括物理性质预测（ADMET）、药物设计（生成模型）和知识发现。总的来说，GPT-4 对药物发现的整个过程和各个步骤都有所了解。

图 2.8：利平斯基的 "五定律"。

图 2.9：药物发现的主要挑战。

图 2.10：人工智能用于药物发现的建议。

药物与目标的结合

药物靶点结合是药理学和药物发现中的一个基本概念，是药物分子与其靶点（通常是体内的蛋白质或受体）之间的特定相互作用。了解药物与靶点的结合对于设计有效、安全的药物至关重要。相互作用的强度称为结合亲和力，是决定药物效力和疗效的关键因素。一般来说，结合亲和力越高，对靶点的作用就越强，治疗效果也就越大。准确预测药物与靶点的结合亲和力可以大大加快药物发现的进程，减少将新疗法推向市场所需的时间和成本。在此，我们研究了 GPT-4 预测药物与靶点相互作用（DTI）和亲和力分数的能力。我们将采用一系列代表不同候选药物和靶蛋白的基准数据集进行定量评估，并采用案例研究进行定性评估。

・药物目标亲和力预测

药物-靶点亲和力（DTA）预测是一个回归问题，旨在估算亲和力得分，以量化候选药物与其靶蛋白之间的结合强度。

设置：如图 2.11 所示，BindingDB 和 DAVIS 是两个著名的亲和预测数据集，它们显示了不同的数据分布。作者采用了以往研究中使用的数据处理方法：由于 API 调用的限制，测试集随机选取 1,000 个样本；GPT-4 温度设置为 0.7；数据来自与 BindingDB 和 DAVIS 数据集相同的数据集。对三种不同的设置进行了验证：零镜头、少镜头和基于相似性的设置。

图 2.11：BindingDB Ki 和 DAVIS 数据集的标签分布，其中 x 轴表示亲和值的对数处理，y 轴显示每个亲和值对应的频率比。

零镜头评估：零镜头评估主要测试 GPT-4 理解亲和预测关键概念的能力，如图 2.12 至 2.13 所示。

- 在图 2.12 中，GPT-4 在被要求估算药物与靶点的亲和力时并不直接进行计算。相反，它为估算结合亲和力提供了逐步指导，并提供了有关药物和靶点的其他信息。

- 图 2.13 显示了一个有趣的案例，GPT-4 似乎可以计算 "直接 "亲和力预测。给定药物的 SMILES 和靶标的 FASTA 序列后，GPT-4 似乎模拟运行了 AutoDock Vina（对接软件），并返回了-7.2 kcal/mol 的亲和力得分。然而，它并不是纯粹地运行 AutoDock Vina，而只是简单地编造了一个得分。因此，验证 GPT-4 生成的此类数值结果的准确性非常重要。

图 2.12：零射药物靶点亲和力（DTA）预测示例：GPT-4 模型并不直接预测 DTA，而是提供有价值的信息，如使用相关对接软件计算亲和力。

图 2.13：有趣的零次 DTA 预测示例：GPT-4 看似在运行对接软件，但其实只是在生成亲和力分数。

少射评估：为考察 GPT-4 学习少射进行 DTA 预测的能力，为 GPT-4 提供了一个少射示例（演示），其中包括：(1) 不同的系统提示（类似于零射评估）；(2) 不同数量的少射示例。(1) 不同的系统提示（与零镜头评估类似）；以及 (2) 不同数量的零镜头示例。为确保少镜头示例的多样性和质量，这些示例都是随机选择或人工选择的7 ，但可以观察到预测结果存在细微差别。

图 2.14 显示了两个不同的系统提示，图 2.15 则显示了几个镜头的示例：第一个系统提示来自药物专家，目的是测试 GPT-4 是否能估计亲和力，而第二个系统提示则由 GPT-4 生成，GPT-4 用作机器学习预测器，从几个镜头的示例中识别模式。第二个系统提示是由 GPT-4 生成的，GPT-4 可作为机器学习预测器，从几个镜头示例中识别模式。表 1 列出了几组实例的评估结果。

从表中可以看出，在 BindingDB Ki 数据集上，GPT-4 似乎是随机猜测亲和性得分的，而与提示或少数群体中枪案例的数量无关。与此相反，GPT-4 在 DAVIS 数据集上显示出了自己的能力，它可以在更多的少数群体案例（5 个案例对 3 个案例）中提高 DTA 预测性能。然而，与最先进的深度学习模型相比，其结果仍然很差。

图 2.14：表 1 评估中使用的系统信息。

图 2.15：在少量 DTA 评估中使用的少量镜头示例。

表 1：表 1：BindingDB Ki 和 DAVIS 数据集的数射 DTA 预测结果，其中 R 代表皮尔逊相关性，Si 代表不同的系统提示，如图 2.14 所示。

kNN 少量样本评估：在之前的评估中，少量样本是手动或随机选择的，这些示例（演示）在整个（1000 个）测试集中对每个测试用例都保持一致。为了进一步评估 GPT-4 的学习能力，GPT-4 采用了 k 近邻法来选择少数几个样本，并进行额外的少数几个样本评估。

具体来说，对于每个测试用例，都会提供不同的少量示例，这些示例保证与测试用例相似。这就是所谓的 kNN 少量评估。这样，测试用例就能从其相似示例中学习，并获得更好的亲和性预测。

虽然有多种方法可以获得 k 个最近邻域，但本研究采用的是基于嵌入的相似性搜索，即计算测试用例与训练集（如 BindingDB Ki 训练集、DAVIS 训练集）中的用例之间的嵌入余弦相似性。内嵌来自 GPT-3 模型，并使用 API 调用检索所有训练和测试案例的 GPT-3 内嵌。

表 2 中显示的结果表明，基于相似性的少量拍摄示例可以显著提高 DTA 预测的准确性。例如，皮尔逊相关性可以接近 0.5，而更多的相似示例可以进一步提高性能。当提供 30 个近邻时，可以观察到一个上限。虽然这些结果很有希望（与前几个镜头的评估结果相比），但性能仍不及现有模型（如 SMT-DTA；因此，如果不进行微调，GPT-4 在 DTA 预测方面还有很长的路要走）。

表 2：DAVIS 数据集中基于 kNN 的少量 DTA 预测结果。通过药物和目标序列的 GPT-3 嵌入选择了不同数量的 K 个近邻；P 为皮尔逊相关性；P 为 kNN 的数量。

・预测药物与目标之间的相互作用

药物-靶点相互作用（DTI）预测是另一项与亲和力预测类似的任务：DTI 是一项二元分类任务，不输出药物与靶点之间的特定亲和力值，而是输出 "是 "或 "否 "的答案，表明药物与靶点是否具有很强的结合亲和力。我们认为这是一项较为简单的预测任务。评估定制的 BindingDB 数据集：随机选择 1000 个测试案例，其中有 500 对阳性药物和 500 对阴性药物-靶标。同样，我们还评估了零次、少量和 kNN 少量设置。

零次评价和少量评价：对于零次评价，系统提示如图 2.17 所示，向 GPT-4 提供化合物的 IUPAC 名称、SMILES、目标蛋白质名称和 FASTA 序列。映射，表明 GPT-4 难以识别这些映射。结果（1）当要求 GPT-4 输出二进制标签时，GPT-4 随机对相互作用预测输出 "是 "或 "否"，解释似乎不合理；（2）GPT-4 可能无法给出药物和靶标能否相互作用的答案、对接工具（类似于 DTA 预测）；(3) 要求更高的提示，例如要求 GPT-4 "检查解释和答案并给出更有把握的答案"，GPT-4 "无法有把握地回答化合物是否能与蛋白质相互作用"，如图 2.16 所示。大多数情况下，答案是 "我不能肯定地回答该化合物是否能与蛋白质发生相互作用"。

图 2.16：药物与目标相互作用的零注射评估示例；GPT-4 在提示自拟时拒绝响应的可能性很高。

图 2.17：用于表 3 中零点评估、少数点评估和表 4 中 kNN 少数点 DTI 评估的系统信息。

表 3 列出了对少量镜头的评估结果。在{1、3、5、10、20}之间改变随机采样的少量镜头示例8 的数量，我们观察到，随着少量镜头示例数量的增加，分类结果并不稳定。此外，结果远远落后于经过训练的深度学习模型，如 BridgeDTI [96]。

表 3：BindingDB 数据集的少量 DTI 预测结果，其中 N 是随机抽样的少量示例的数量。

kNN 拍数评估：同样，对 GPT-4 的 BindingDB DTI 预测也进行了基于嵌入的 kNN 拍数评估。嵌入也来自 GPT-3。对于每个测试案例，近邻 k 的范围为 {1、5、10、20、30}，结果如表 4 所示。从表中可以看出，加入更多相似的药物-靶点相互作用对有明显的优势。例如，从 k = 1 到 k = 20，准确度、精确度、重现性和 F1 分数都有显著提高；GPT-4 略微优于鲁棒 DTI 模型 BridgeDTI [96]，这表明基于嵌入的 kNN 评估具有很强的学习能力，GPT-4 在 DTI 预测方面具有很大的潜力。这证明了 GPT-4 在 DTI 预测方面的潜力。它还表明，GPT 嵌入在二元 DTI 分类任务中表现出色。

表 4：基于 kNN 的 BindingDB 数据集少拍 DTI 预测结果，其中 GPT-3 嵌入为药物和目标序列选择了不同数量的 K 个近邻序列。

分子特性预测

在此，我们根据从 MoleculeNet 挑选出的两项性质预测任务对 GPT-4 的性能进行了定量评估：一项是预测药物的血脑屏障渗透性 (BBBP) 能力，另一项是预测药物是否具有 p53 通路（Tox21-p53）的生物活性。这些都是这两项任务都是二元分类。

利用支架划分法，对数据库中的每个分子提取其支架。然后根据支架的频率，将相应的分子分配到训练集、验证集和测试集中。这样可以确保三个集合中的分子在结构上显示出差异。

定性研究表明，GPT-4 在同一分子的不同表征中表现不同。在这里的定量研究中，我们也考察了不同的表示方法。首先，我们用分子的 SMILES 或 IUPAC 名称测试 GPT-4；图 2.18 顶部方框中显示的是 IUPAC 提示；对于基于 SMILES 的提示，只需将 "IUPAC "替换为 "SMILES "即可。结果如表 5 所示。总的来说，以 IUPAC 作为输入的 GPT-4 比以 SMILES 作为输入的 GPT-4 取得了更好的结果。作者推测，在 GPT-4 使用的训练文本中，IUPAC 名称通过明确使用子结构名称来表示分子，而子结构名称出现的频率高于 SMILES。

受 LLM 在自然语言任务中进行的少量（或上下文）学习取得成功的启发，我们使用 IUPAC 名称对 BBBP 进行了五次评估。提示信息如图 2.18 所示。对于测试集中的每个分子，都会根据摩根指纹从训练集中选出五个最相似的分子。有趣的是，与零次搜索设置（表 5 中 "IUPAC "行）相比，五次搜索设置（表 5 中 "IUPAC (5-shot) "行）的精确度和准确度有所下降，召回率和 F1 则有所上升。这一现象可归因于数据集分割方法。由于脚手架分割会导致训练集和测试集之间存在较大的结构差异，因此被选为五次扫描案例的五个最相似分子实际上可能与测试案例并不相似。这种结构差异可能会导致预测偏差或错误。

图 2.18：BBBP 属性预测提示。分母用 IUPAC 名称表示。

表 5：BBBP 预测结果。测试集包含 107 个阳性样本和 97 个阴性样本。

除了使用 SMILES 和 IUPAC 外，我们还使用药物名称测试 GPT-4：在 DrugBank 中搜索分子 SMILES 以获得药物名称在 204 种药物中，我们在 DrugBank 中找到了 108 种药物名称。使用与图 2.18 相同的提示输入名称。结果如表 5 右半部分所示，该表还列出了通过 GPT-4 输入 SMILES 和 IUPAC 的 108 种药物的相应结果。使用分子名称的结果表明，所有四项指标都有明显改善。一种可能的解释是，在 GPT-4 训练语料库中，药物名称（比 IUPAC 名称或 SMILES）出现的频率更高。

BBBP 的最终分析是将 GPT-4 与 MolXPT 进行对比评估，MolXPT 是一种基于 GPT 的语言模型，专门针对分子 SMILES 和生物医学文献进行训练；MolXPT 有 3.5 亿个参数，并在 MoleculeNet 上进行了微调。值得注意的是，它在完整测试集上的表现优于 GPT-4，准确率、可重复性和 F1 分数分别为 70.1、66.7、86.0 和 75.1。这些结果清楚地表明，在分子性质预测领域对专业模型进行微调可以产生与 GPT-4 相当或更好的结果，这表明 GPT-4 还有很大的改进空间。

Tox21-p53 的结果如表 6 所示。同样，以 IUPAC 名称作为输入的 GPT-4 也优于 SMILES，而且五发结果比零发结果差很多。

表 6：Tox21 SRp53 集（简称 Tox21-p53）的预测结果；由于 GPT-4 的 API 访问配额有限，因此从测试集中随机抽取了所有阳性样本（72 个样本）和 144 个阴性样本（阳性样本的两倍）进行评估。

图 2.19 显示了一个零射 BBBP 预测的例子：GPT-4 生成了准确的药物描述、适应症和靶点，并得出了有效的结论。

图 2.19：BBBP 预测示例：舒芬太尼（DB00708）。绿色区域被确认为正确。

复合成

逆合成是药物发现过程中的一项重要工具，它使化学家能够战略性地设计合成途径，从较简单的起始材料中生成所需的化合物。通过将复杂的分子分解成更简单的构件，化学家们可以确定最高效、最具成本效益的合成路线来开发新的候选药物。因此，逆合成技术能够快速高效地设计和合成新的候选药物化合物。

在此，我们将探讨如何利用 GPT-4 来理解化学反应，并从定性和定量两个方面预测潜在的反应物和生成物。

・了解化学反应

下面介绍两个案例来展示 GPT-4 理解化学反应的能力。在图 2.21 中，要求 GPT-4 以有机化学家和逆向合成专家的身份描述一个给定的化学反应（用 SMILES 序列表示），GPT-4 首先将 SMILES 序列翻译成反应物名称，然后描述反应机理，GPT-4 是第一步、它在第一步就失败了，即把 SMILES CC(=O)c1ccc2[nH]ccc2c19 转化为 2-乙酰吲哚的名称，把 SMILES CC(C)(C)OC(=O)OC(=O)OC(C)(C)C10 转化为无水三甲基乙酸的名称。如图 2.20 所示，这些名称的分子图与原始 SMILES 非常相似，但却是不同的分子。因此，下面的解释方向是错误的。在图 2.22 中，您要求 GPT-4 一步一步仔细思考，解释这一化学反应。这次解释的方向是正确的：GPT-4 不再将 SMILES 序列转换为名称，而是详细描述了分子中的官能团。遗憾的是，它仍然不正确：二碳酸二叔丁酯没有三个酯（C=O）官能团，而且对反应机理的解释也不完全正确，因为得到的副产物是异丁烯和二氧化碳，而不是叔丁酸。

图 2.20：GPT-4 生成的两种真正反应物（a）和（c）的二维分子图及其翻译名称（b）和（d）。相似但不完全相同。

图 2.21：了解化学反应例 1.

图 2.22：了解化学反应例 2.

・反向合成预测

利用广泛使用的基准 USPTO-50K 数据集和少反应设置，对 GPT-4 在单步反向合成预测（即预测给定产物的可能反应物）方面的能力进行了定量研究。

配置：USPTO-50K 数据集包含从美国专利中提取的 50,037 个化学反应。采用与许多文献相同的数据分割方式，40,029 个反应作为训练集，5,007 个反应作为测试集；由于 API 调用的限制，从 USPTO-50K 测试集中选取前 500 个样本进行测试。前 1 位准确率被用作评估指标，R-SMILES 被用作主要基线；R-SMILES 是专为反合成预测设计的先进模型，并在此数据集上进行了训练。

少量实例结果 :作者在评估 GPT-4 用于反合成预测的少量实例能力时考虑了几个方面：(1) 少量实例数量的差异，(2) 获得少量实例方法的差异。(a) 随机选择，(b) 根据分子指纹相似性从训练数据集中选择 K 个最近邻。(3) 我们还评估了在提示中添加 IUPAC 名称是否会提高准确率。图 2.23 显示了用于数字拍摄评估的提示。结果见表 7：

- GPT-4 对逆合成的预测准确率为 20。

.- GPT-4 的准确性随着提示中添加的示例增多而提高，K = 10 是一个不错的选择。

- K 近邻搜索明显优于随机搜索（20.2% 对 1.2%）。

- 在提示中加入 IUPAC 名称可略微提高准确率（20.6% 对 20.2%），并减少无效 SMILES 的比例。

- GPT-4 的准确率（20.6%）低于特定领域模型的准确率（53.6%），这表明针对这一特定任务，GPT-4 还有很大的改进空间。

图 2.24 显示了一个例子，GPT-4 在第一次尝试时未能预测出正确的反应物，经过几轮指导和修正后最终预测成功。这表明 GPT-4 具备良好的知识，但需要具体的用户反馈和逐步验证才能避免错误。

表 7：USPTO-50k 数据集的数射合成预测结果。

图 2.23：少量回溯合成预测评估示例。

图 2.24：反向合成预测示例。经过多轮引导，GPT-4 最终会给出正确的反应物。

生成新分子

药物发现中的一个重要应用是提出/产生作为候选药物的新分子：SARS-Cov-2 利用尖峰蛋白穿透人体表面受体。作者要求 GPT-4 提供一般性指导，以设计能与能中和 COVID-19 的尖峰蛋白结合的基于蛋白质的药物。然后，GPT-4 向他们展示了如何使用名为 Rosetta 的计算工具从头开始设计此类蛋白质药物；GPT-4 对作者的问题做出了出色的回答，表明 GPT-4 可以帮助设计新型蛋白质药物。

图 2.25：GPT-4 了解如何使用计算工具进行生物设计。

评估蛋白质药物的一种方法是估算它们与目标的结合亲和力。我们请 GPT-4 向我们展示如何通过计算来做到这一点。GPT-4 向我们详细展示了如何使用一种名为 RosettaDock 的公开工具来估算蛋白质的结合亲和力。GPT-4 展示了一个合理的设计过程，但要通过计算预测非常复杂的内部环境中蛋白质与蛋白质之间的相互作用仍然很困难，因此蛋白质设计需要湿实验室实验进行验证。请注意

图 2.26：GPT-4 展示了如何利用名为 Rosetta 的计算工具从头开始设计此类蛋白质药物。

为数据处理提供编码支持

评估助理使用 GPT-4 处理药物发现数据的能力。具体来说，我们将让 GPT-4 生成 Python 代码，以处理与药物发现相关的数据。大量药物和蛋白质数据以 SMILES 和 FASTA 等序列格式存储，可以从 PubChem11 和 UniProt12 网站下载。示例见图 2.27 和图 2.28。

图 2.27：用于从 PubChem 下载带有 ID 的分子式的 SMILES 编码辅助工具。

图 2.28：从 UniProt 下载蛋白质序列的编码辅助工具，ID.

在图 2.28 中，GPT-4 正确描述了下载蛋白质序列数据、添加空格并以指定格式保存到文件中的代码。分子处理（图 2.27）需要检索分子的 SMILES 和化学式。有趣的是，GPT-4 为数据下载生成了一个几乎正确的 URL，但在 URL 中合并了关键字 "SMILES 和化学式"，导致 URL 无效。得知这一错误后，GPT-4 认为问题与 PubChem REST API 调用有关。GPT-4 没有修复这个错误，而是提出了一个替代解决方案，即使用 "pubchempy "软件包下载数据，并成功运行了代码。这些示例表明，GPT-4 可以帮助为药物发现中的数据处理生成正确的脚本。

生物学

作者详细探讨了 GPT-4 在生物研究领域的能力，重点是其理解生物语言、利用嵌入的生物知识进行推理以及设计生物分子和生物实验的能力。作者的观察结果表明，GPT-4 在处理复杂的生物语言、执行生物信息任务，甚至充当生物设计的科学助手等方面表现出巨大的潜力，可为生物学领域做出贡献。对生物概念的广泛掌握及其作为设计工作中的科学助手的巨大潜力，凸显了 GPT-4 在生物学领域发展中的重要作用：

生物信息处理：GPT-4 可以处理生物领域特定文件的信息，如 MEME 格式、FASTQ 格式和 VCF 格式。此外，它们还擅长根据给定的任务和数据进行生物信息学分析，例如根据给定的序列预测信号肽，如图 3.4 所示。

- 对生物学的理解：GPT-4 对各种生物学主题有广泛的理解，包括共识序列、PPI、信号通路和进化概念。

- 生物推理：GPT-4 有能力利用内含的生物知识，从生物观察结果中推断出合理的机理。

- 生物支持：GPT-4 已在蛋白质设计任务和湿实验室实验中显示出其作为科学助手的潜力，可将实验方案转化为自动化。虽然 GPT-4 是支持生物研究的非常强大的工具，但也存在一些局限性和偶尔的错误。

为研究人员更好地利用 GPT-4 的功能提供了一些建议：

- 理解 FASTA 序列：GPT-4 的一个显著挑战是直接处理 FASTA 序列。在可能的情况下，生物分子的名称应与序列一起提供。

- 不一致的结果与 GPT-4 生物实体相关的任务的执行受到与实体相关的大量信息的影响。对研究较少的实体（如转录因子）进行分析可能会产生不一致的结果。

- 理解阿拉伯数字：GPT-4 难以直接处理阿拉伯数字。建议将阿拉伯数字转换为文本。

- 定量计算：虽然 GPT-4 在理解和处理生物语言方面表现出色，但在定量计算方面有其局限性。为了得出可靠的结论，建议使用人工或其他计算工具进行验证。

- 提示敏感性：GPT-4 的回答不一致，主要取决于问题的措辞。

总之，GPT-4 展示了在理解和处理生物语言、利用嵌入知识进行推理以及支持设计任务等方面的能力，因而具有推动生物学领域发展的巨大潜力。尽管存在一些局限性和错误，但经过适当的指导和改进，GPT-4 有可能成为研究人员在不断发展的生物研究领域的宝贵工具。

计算化学

计算化学是一个跨学科领域，它利用计算方法和技术来解决化学中的复杂问题。长期以来，计算化学一直是研究分子系统的重要工具，为原子级相互作用提供洞察力，并为实验工作提供指导。该领域涉及理论模型、计算机模拟和数值算法的开发和应用，以研究分子、原子、材料和物理系统的行为。计算化学在理解微观和宏观层面的分子结构、化学反应和物理现象方面发挥着重要作用。本章概述了 GPT-4 在计算化学各个领域的能力，包括电子结构方法和分子动力学模拟，并提供了两个实际例子，从不同角度说明 GPT-4 的作用。总之，我们认为 GPT-4 可以从以下多个角度为计算化学研究人员提供帮助

GPT-4 具有丰富的计算化学知识，涵盖密度泛函理论、费曼图、电子结构理论、分子动力学模拟和分子结构生成等主题 GPT-4 能够解释基本概念并总结该领域的主要发现和趋势能够

- 方法选择：GPT-4 可针对特定研究问题推荐合适的计算方法和软件包，同时考虑系统规模、时间尺度和理论水平等因素。

- 设置模拟 GPT-4 可协助设置和建议模拟参数，如简单分子输入结构准备、特定对称性、密度函数、时间步长、集合、温度和压力控制方法以及初始设置。

- 代码开发：GPT-4 可协助在现有的计算化学和物理软件包中实施新的算法和功能。

- 实验、计算和理论指导：GPT-4 可为研究人员提供实验、计算和理论指导；GPT-4 是支持计算化学研究的有力工具，但也存在一些局限性和错误。

为研究人员更好地利用 GPT-4 提供了一些建议：

- 幻觉：GPT-4 偶尔会产生错误信息；GPT-4 可能难以进行复杂的逻辑推理。研究人员需要独立核实和验证 GPT-4 的输出和建议。

- 原始原子坐标：GPT-4 不擅长生成或处理复杂分子或物质的原始原子坐标。不过，如果有包含分子式、分子名称或其他辅助信息的适当提示，GPT-4 仍可用于简单系统。

- 精确计算：在作者评估的基准中，GPT-4 并不擅长精确计算，对称性、等价性和不变性等物理先验通常会被忽略。目前，GPT-4 返回的定量数字可以通过文献检索和少量实例获得；最好将 GPT-4 与科学计算软件包（如 PySCF）或机器学习模型（如 Graphormer 或 DiG）相结合。

- 实践：GPT-4 仅提供指导和建议，但不允许直接进行实验或模拟。研究人员需要建立并运行自己的模拟和实验，或利用基于 GPT-4 的其他框架，如 AutoGPT16、HuggingGPT 和 AutoGen。

总之，GPT-4 在计算化学的许多领域（包括电子结构方法、分子动力学模拟和实际应用）都显示出卓越的潜力。虽然还存在一些局限性和不准确性，但通过适当的指导和调整，GPT4 有可能发展成为研究人员在动态扩展的计算化学领域中的宝贵资源。

材料设计

本节探讨 GPT-4 在材料设计领域的能力。作者设计了一套全面的任务，涵盖材料设计过程的各个方面，从最初的构思到随后的验证和综合。作者的目的是评估 GPT-4 的专业知识及其在实际应用中产生有意义的见解和解决方案的能力。作者设计的任务涵盖各个方面，包括背景知识、设计原理、候选材料识别、候选结构生成、性能预测和合成条件预测。通过对设计过程的全面考察，作者旨在全面评估 GPT-4 在设计更复杂材料，特别是晶体无机材料、有机聚合物和有机金属框架 (MOF) 方面的能力。值得注意的是，作者的评估主要侧重于对 GPT-4 在这一特定领域的能力进行定性评估，只有在可行的情况下才会进行统计评分。

通过作者的评估，GPT-4 在材料设计方面的能力总结如下

- 信息记忆信息记忆：记忆无机晶体和聚合物信息以及提出设计原则的能力非常出色。对材料设计基本规律的文字理解能力值得一提。例如，在设计固体电解质材料时，他们能提出增加离子导电性的方法，并给出精确的例子。

- 成分创造：熟练生成新无机材料的可行化学成分（图 5.5）。

- 合成规划为无机材料的合成规划提供足够的能力。

- 编码支持：为材料任务提供普遍有用的编码支持。例如，可为大量性质计算生成分子动力学和 DFT 输入，从而正确使用许多计算软件包并建立自动处理管道。要对生成的代码进行微调，可能需要迭代反馈和手动调整。

尽管 GPT-4 功能强大，但在材料科学领域也有潜在的局限性：

- 表征：表征：在表征和提出有机聚合物和 MOF 方面存在挑战。

- 结构生成：结构生成：结构生成在生成准确的原子坐标方面能力有限，尤其是在生成准确的原子坐标时。

- 预测：在预测物理特性时，不足以进行准确的定量预测。例如，在预测材料是金属还是半导电时，其准确性仅比随机猜测略高。

- 合成路线：在没有额外指导的情况下，我们很难为训练集中没有的有机聚合物材料提出合成路线建议。

总之，GPT-4 为支持材料设计任务奠定了良好的基础，GPT-4 在结构生成和性能预测（作者研究的基准）等特定领域的表现，与分子图谱和专用人工智能模型等补充模式的额外训练数据相得益彰。随着 GPT-4 等 LLM 的不断进步，希望能为材料设计提供更复杂、更准确的帮助，最终实现更高效、更有效的材料发现与开发。

偏微分方程

偏微分方程（PDEs）是数学领域中一个重要而活跃的研究领域，在物理学、工程学、生物学和金融学等多个领域有着广泛的应用。偏微分方程是描述涉及多个变量及其偏导数的复杂系统行为的数学方程。从流体动力学和热传导到电磁场和集合动力学，PDE 在模拟和理解各种现象方面发挥着重要作用。

本节探讨了 GPT-4 在以下几个方面的能力：理解 PDE 的基本原理、求解 PDE 以及为 PDE 研究提供人工智能支持。评估了各种形式的 PDE 模型，包括线性方程、非线性方程和随机 PDE。结果表明，GPT-4 可以在多个方面为研究人员提供帮助：

PDE 概念：GPT-4 提供了对基本 PDE 概念的理解，使研究人员能够更好地理解他们正在处理的 PDE。GPT-4 是教授学生的有用资源，使他们能够更好地理解和认识 PDE 在学术追求和研究活动中的重要性。对

- 概念关系：这一模型可以确定概念之间的关系，从而帮助数学家开阔视野，直观地掌握不同子领域之间的联系。

- 解决方案建议：GPT-4 可以推荐适当的分析和数值方法来处理不同类型和复杂的 PDE。根据具体问题，可推荐适当的方法来获得精确或近似解。

- 代码生成：该模型可以用各种编程语言（如 MATLAB 和 Python）生成用于数值解 PDE 的代码，从而促进计算求解方法的实施。

- GPT-4 具有支持 PDE 研究的潜力，但也存在一些局限性。为了更好地利用 GPT-4，我们向研究人员提出了以下建议：

- 输出验证：输出验证：尽管 GPT-4 在求解偏微分方程和提供显式解法方面表现出了与人类类似的能力，但仍有可能出现错误的推导。研究人员在使用 GPT-4 求解偏微分方程时，应谨慎验证模型的输出。

- 识别错觉：GPT-4 可能会错误地引用不存在的文献。研究人员应交叉检查引文并注意这一局限性，以确保模型所提供信息的准确性和可靠性。

未来展望

本研究调查了各种自然科学领域中法律硕士的能力和局限性。

作者的主要目的是对 GPT-4 作为最先进的 LLM 及其对科学发现的潜在贡献进行初步评估，为多学科研究人员提供宝贵的资源和工具。通过广泛的分析，作者强调，GPT-4 精通于从文献综合到属性预测和代码生成等一系列科学任务。

尽管 GPT-4 （以及类似的 LLM）具有令人印象深刻的功能，但必须认识到它的局限性。例如，这些限制包括处理某些数据格式时遇到的挑战、反应的不一致性以及偶尔出现的幻觉。作者认为，他们的研究为了解和评估 GPT-4 在自然科学领域的潜力迈出了重要的第一步。

作者详细概述了 GPT-4 的优缺点，旨在帮助研究人员在将 GPT-4（或其他 LLM）纳入日常工作时做出明智的决定，并确保在牢记其局限性的同时实现最佳应用。此外，作者还旨在鼓励进一步探索和开发 GPT-4 及其他 LLM，以提高其科学发现能力。这可能涉及改进学习过程，纳入特定学科的数据和架构，以及整合针对不同科学学科的特定技术。

随着人工智能领域的不断进步，GPT-4 等复杂模型的集成有望在加速科学研究和创新方面发挥越来越重要的作用。我们希望作者的工作能成为研究人员的宝贵资源，促进合作和知识共享，并最终有助于更广泛地理解和应用 GPT-4 和类似的 LLM，以追求科学突破。本章的其余部分总结了 LLM 在科学研究中需要改进的方面，并讨论了加强或借鉴 LLM 以推动实现科学突破的潜在方向。

改进的法学硕士

需要采用更详细、更全面的方法来进一步发展 LLM，为科学发现提供信息并解决其局限性。本节将对前面提出的改进建议进行更广泛的讨论：

- 增强 SMILES 和 FASTA 序列处理能力：LLM 处理 SMILES 和 FASTA 序列的熟练程度，以及专用标记/标记符和附加参数（如新的标记嵌入参数），可通过将重点放在这些特定序列类型上而得到提高。通过纳入训练数据集，可以对其进行改进。此外，在药物发现和生物研究中，还可以通过使用专门针对 SMILES 和 FASTA 序列的编码器和解码器来改进 LLM 的理解和生成。这里需要注意的是，只有新引入的参数需要进一步训练，而之前训练过的 LLM 的原始参数可以保持不变。

- 提高定量任务能力：为提高 LLMs 的定量任务能力，可整合更多专门针对定量问题的训练数据集，或纳入特定领域架构和多任务学习，以实现药物与目标结合的数值预测，并在分子特性预测等任务中取得更好的性能。在分子特性预测等任务中发挥更好的性能。

- 提高对研究较少的实体的理解：要提高对研究较少的实体（如转录因子）的认识和理解，您需要纳入与这些实体相关的更专业的训练数据。这包括最新的研究成果、专家编辑的数据库和其他资源，它们可以帮助模型加深对主题的理解。

- 增强分子和结构的生成：要增强 LLM 生成创新和可行的化学成分和结构的能力，就需要纳入与分子和结构生成相关的专业训练数据集和方法。可以利用物理先验学习和强化学习等方法来提高生成化学上有效和新颖的分子和结构的能力。此外，专业模型的开发，如用于分子和结构生成的扩散模型，可与 LLMs 结合，作为与这些特定模型交互的界面。

- 提高模型的可解释性和可说明性：随着 LLM 越来越复杂，必须提高其可解释性和可说明性。这有助于研究人员更好地理解 LLM 的输出结果并信任其建议。采用基于注意力的解释、特征重要性分析或反事实解释等技术，可以更深入地了解 LLM 的推理和决策过程。

通过解决这些局限性并采纳建议的改进措施，LLM 可以成为跨学科科学发现的更强大、更可靠的工具。这将使研究人员受益于 LLM 的先进能力和洞察力，加快药物发现、材料科学、生物学、数学和其他科学探索领域的研究和创新步伐。

除上述方面外，还必须考虑其他一些因素，这些因素不仅限于科学领域，也适用于自然语言处理和计算机视觉等一般领域。这些考虑因素包括减少输出变异性、降低输入敏感性和减少错觉。降低输出可变性和输入敏感性对于 LLM 的稳健性及其在各种任务中做出准确响应的一致性至关重要。

这可以通过改进学习过程、采用强化学习等技术以及整合用户反馈来实现，以提高 LLM 对各种输入和提示的适应性。尽量减少幻觉是另一个重要方面，因为它直接影响 LLM 输出的可靠性和可信度。可以采用对比学习、一致性训练和使用用户反馈等策略来减少幻觉的出现，并提高所生成信息的整体质量。

解决这些一般性问题可以进一步提高 LLM 的性能，使其在科学和一般领域的应用中更加稳健可靠。这将有助于开发一种全面、通用的人工智能工具，帮助各学科的研究人员和从业人员更高效、更有效地实现他们的目标。

将 LLM 与科学工具相结合

越来越多的证据表明，通过整合外部工具和专用人工智能模型，GPT-4 和其他 LLM 的能力可以得到显著增强，HuggingGPT、AutoGPT 和 AutoGen 等系统就是证明。我们认为，与一般人工智能任务相比，集成专用计算工具和人工智能模型对于科学任务来说更为重要，因为它可以促进前沿研究，简化各科学领域复杂问题的解决。Azure 量子平台的 Copilot 就是这种方法的一个典型例子。该平台提供了一种化学学习体验，专门用于提高化学和材料科学领域的科学发现能力和研究效率。它将 GPT-4 和其他 LLM 的强大功能与科学出版物和计算插件相结合，使研究人员能够以更高的精度和效率解决具有挑战性的问题。研究人员可以利用Copilot for Azure Quantum访问大量针对其需求量身定制的高级功能，包括化学和材料科学数据基础设施，该基础设施可以减少LLM幻觉，实现即时信息检索和洞察力生成。其他例子包括 ChemCrow，这是一个 LLM 代理，旨在通过集成 GPT-4 和 17 个专家设计的工具，以及 GPT-3.5 和适当的工具包（表搜索器），完成有机合成、药物发现和材料设计等化学任务、ChatMOF），这是一个 LLM 代理，集成了互联网搜索器、预测器、生成器等，可生成新材料并预测这些材料的特性（如有机金属骨架）。总之，科学工具和插件有可能大大增强 GPT-4 和其他 LLM 在科学研究中的能力。这种方法不仅能获得更准确、更可靠的结果，还能增强研究人员解决复杂问题的信心，最终加速科学发现，促进化学和材料科学等一系列学科的创新。

建立统一的基本科学模型

GPT-4 主要是一个基于语言的底层模型，并在大量文本数据的基础上进行训练。然而，在科学研究中，除了文本信息，还有许多其他有价值的数据源。例如药物分子数据库、蛋白质数据库和基因组数据库，它们对科学发现具有重要意义。这些数据库包含大分子，如 titin 蛋白，它由 30 000 多个氨基酸和大约 180 000 个原子（以及 3x 个原子坐标）组成。将这些数据源转换成文本格式会产生很长的序列，LLM 很难有效处理。因此，开发以科学为基础的模型来支持自然科学家的研究和发现极为重要。虽然目前已有针对个别科学领域的预学习模型，并将重点放在有限的任务集上，但统一的大规模科学基础架构模型尚未建立。现有的模型包括

- ESM-x系列（包括ESM-2、ESMFold、MSA Transformer、用于变异效应预测的ESM-1v和用于反向折叠的ESM-IF1）是预先训练好的蛋白质语言模型。

- DNABERT-1/2、核苷酸转换器、MoDNA、HyenaDNA 和 RNA-FM 是 DNA 和 RNA 的学习模型。

- Geneformer 已在约 3,000 万个单细胞转录组的语料库中进行了预训练，可利用染色质和网络动力学等网络生物学的有限数据进行特定上下文预测。

受这些研究的启发，作者主张开发一个统一的大规模科学基础设施模型，该模型可以处理尽可能多的科学领域和任务，并支持多模式和多尺度输入。还在于其广度。因此，开发跨领域的统一科学基础模型是区别于以往特定领域模型的重要标志，并将显著提高统一模型的有效性。

与传统的大规模语言模型（LLM）相比，这种统一模型具有几个独特的功能：

- 支持多种输入，包括多模态数据（文本、一维序列、二维图形、三维立体结构）、周期性和非周期性分子系统以及各种生物分子（如蛋白质、DNA、RNA、omics 数据）。

- 将物理定律和第一原理纳入模型构建和学习算法（如数据清理和预处理、损失函数设计、优化器设计）。这种方法认识到了物理世界（及其科学数据）与一般人工智能世界（NLP、CV、语音数据）之间的根本区别。与后者不同，物理世界受规律支配，而科学数据则代表了对这些基本规律的（嘈杂）观察。

- 它利用 GPT-4 等现有 LLM 的强大功能，有效利用科学领域的文本数据，处理开放领域的任务（研究期间未见），并提供用户友好的界面，为研究人员提供帮助。

开发具有这些特点的统一的大规模科学基础设施模型将推动科学研究和发现的发展，使自然科学家能够以更高的效率和精度解决复杂的问题。