ChemLLM：专门针对化工行业的大规模语言模型的创新和应用

大型语言模型 12/03/2024

三个要点
✔️ 开发新的方法和模型："ChemData "用于将化学数据转换为自然语言格式，"ChemLLM "是一个具有化学专业知识的大型语言模型。
✔️ ChemLLM，一个具有化学专业知识的交互式模型：一个具有化学专业知识的大规模语言模型，性能超过 GPT-3.5，能够交互式处理各种化学任务。
✔️ 扩展大规模语言模型在科学领域的应用：ChemLLM 不仅为化学领域的语言处理任务，也为一般科学领域的语言处理任务提供了新的应用可能性。

ChemLLM: A Chemical Large Language Model
written by Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang
(Submitted on 10 Feb 2024)
Subjects: Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

大规模语言模型（LLM）具有出色的语言理解和生成能力，有望在各个科学领域得到应用。特别是在化学领域，从分子性质预测到实验方案设计，它们的潜力已引起广泛关注。然而，现有的大规模语言模型没有充分利用化学领域的专业知识，这是一个挑战。

为解决这一问题，论文开发了将化学数据转换为自然交互格式的新方法 ChemData 和具有化学专业知识的大规模语言模型 ChemLLM。这些创新不仅将加速化学研究的进展，还将有助于扩大大规模语言模型在各科学学科中的适用性。

ChemData "包含 700 万个化学指令数据集，对训练大规模语言模型非常有效。该数据集还向公众开放，以鼓励化学语言模型的开发。ChemLLM "是首个开源化学语言模型，在保留化学专业知识的同时，还能保持自然语言处理能力。此外，它还展示了如何通过两阶段指令调整管道将化学知识有效纳入 ChemLLM。这种方法为科学语言模型的学习以及化学语言模型的开发提出了新的方向。

本文探讨了大规模语言模型在化学研究中的潜力，它可以为科学界提供新的工具，成为解决化学相关问题的可靠助手。

化学数据

要为高性能化学建立大规模语言模型，需要全面、高质量的数据集。本文从广泛的互联网资源中收集化学数据。

该数据集涵盖广泛的化学领域知识，并遵循三个主要任务类别（分子、反应和领域）。

分子类别对于理解和识别分子结构及其特性至关重要。它包括四个主要领域。

分子识别：涉及不同分子表示法之间的转换，如 SMILES、IUPAC 和化学式。
分子特性预测：重点预测包括溶解度在内的各种分子特性。
分子生成：侧重于设计和生成符合特定属性标准的 SMILES 格式分子结构。
分子字幕：侧重于以自然语言格式生成分子特征、功能或相关信息。

反应类别对于解读化学反应非常重要，包括反应产物预测、反应产率预测、反应条件选择和逆合成分析。这些任务中的每一项都在了解化学反应的动态和后果方面发挥着重要作用。

反应产物预测：重点是根据所涉及的反应物预测化学反应的结果。
反应产率预测：重点是估计反应产物的产率。
反应条件选择：确定反应进行的最佳条件，以最大限度地提高产量和效率。因素包括温度、压力、催化剂和溶剂。
反向合成分析：重点是从目标分子进行反向分析，以推断可能的反应物和合成途径。

领域类别包括特定领域的任务，这些任务除了以分子和反应为重点的任务外，还大大扩展了大规模语言模型的通用性。这些任务包括化学信息编程、领域问答、文献翻译和反应设计。

化学信息学编程的目的是培养理解和生成大型语言模型中的化学信息学代码的技能，并将其纳入化学分析和研究工作流程。
领域问答旨在利用从教科书中获得的化学常识，建立大规模语言模型的能力，以解决化学领域从基本概念到高级主题的一系列问题。

因此，正在收集广泛的化学数据，以建立一个大规模的化学语言模型，作为分析的基础。预计这将加深对化学的理解，扩大化学的应用范围。

此外，由于化学独特的表示格式和数据复杂性，开发大规模化学语言模型并不简单。本文介绍了一种创新方法，可将化学数据转换为自然语言，并将其排列成适合训练大规模语言模型的格式。

这种方法既能保留化学专业知识，又能将数据转化为更易于访问和解释的格式。具体来说，它采用了一种名为 "扮演剧作家"（Play as Playwrights）的策略，利用种子模板生成单轮和多轮对话场景，极大地增加了训练数据的多样性。虽然这种方法是专门为化学领域设计的，但它也适用于其他科学领域，并为大规模语言建模研究开辟了新的可能性。

这种方法通过将化学数据转换为自然语言，大大提高了大规模语言模型的训练效率。首先，它从种子模板开始，将数据转换成直观易懂的格式，同时保留化学知识：使用 GPT-4，生成各种问答对，并利用这些问答对构建单轮对话示例。这种方法还可用于预测化学反应和描述属性等任务。

多轮对话生成还侧重于模仿专家间的讨论，训练模型的推理能力。在这里，"扮演剧作家 "技术被用来创建各种对话场景，同时保持内容的专业性和讨论的深度。这种技术提高了对话的质量，使讨论更加专业和深入。

分子相关任务使用种子模板来形成适合特定化学任务的问答对。例如，这包括将不同格式的分子名称相互转换的任务。此外，在处理化学反应数据时，还设计了专门的模板来应对反应条件的多样性和不完整性。

最后，我们采用了条件屏蔽策略（condition-masking strategy）来加强多轮对话的逻辑一致性。这样做的目的是确保模型能做出与专家级分析相媲美的推论。此外，为了给模型提供广泛的领域知识，我们汇总并综合了大量的教科书数据和研究课题，以培养模型的深度阅读能力。

为了提高语言模型在特定领域的能力，我们引入了创新的 "两阶段教学调整管道"。这种方法在开发化学领域专用语言模型 ChemLLM 时尤为有效。该模型基于 "InternLM2-Base-7B"，有中文和英文两种版本，具有 4096 个词组的长上下文窗口，非常适合复杂任务。

化学LLM

为了提高特定领域语言模型的能力，引入了两阶段指令调整管道（Two-Stage Instruction Tuning Pipeline）方法。这种方法在开发化学领域专用的大型语言模型 ChemLLM 时尤为有效。该模型以 "InternLM2-Base-7B "为基础，有中文和英文两种版本，具有 4096 个词组的长上下文窗口，非常适合复杂任务。

在第一阶段，我们使用了由 170 万个不同例子组成的庞大语料库，以增强模型理解语言的能力。通过这一过程，我们为理解语言和对话结构的细微差别以及吸收专家知识奠定了坚实的基础。在这一阶段，我们利用 FireFly、OpenOrca 和 UltraChat 等数据集，让我们的模型深入了解人类互动及其动态。

在下一阶段，通过整合化学数据（ChemData）这一专门用于化学领域的独特数据集，该模型将进一步专业化。这一阶段的重点是提高模型在各种子任务中的能力，从理解化学术语到解释反应机理。因此，从一般会话技能到特定专业知识的过渡非常顺利，模型的适应性和准确性也得到了显著提高。

这种两阶段方法明确区分了通用的 InternLM2-Chat-7B 和以化学为重点的 ChemLLM。这种方法提供了将人工智能技术用于特定专业领域的可能性，并显示了弥合通用人工智能能力与特定领域需求之间差距的潜力。

实验结果

评估基于三个方面：专业化学任务、通用语言能力和多语言适应能力。ChemLLM 专为化学领域设计，对于熟练掌握复杂的化学知识和数据当然非常重要。此外，熟练掌握一般语言以及完成文献综述和撰写报告等总体任务的能力也是必要的。还需要深入理解不同文本的细微差别。此外，该模型处理多种语言的能力对于在全球范围内使用也是至关重要的，这有助于通过浏览各种语言的化学信息为广大用户提供支持。这些方面对于评估 ChemLLM 的性能、促进其在化学研究和学习中的发展和整合都非常重要。在本文中，我们将特别关注核心专业化学任务和通用语言能力。

首先，对专业化学任务的评估是通过专门为化学领域设计的新基准 ChemBench 来评估语言模型对化学的理解。该基准是一个包含三个分步任务的框架：分子名称转换、分子标题创建和化学反应预测。每个任务都会逐步评估模型对化学概念的掌握程度，从基本化学知识到分子性质的理解，再到化学反应结果的预测。

下表显示了使用 ChemBench 进行的一系列比较分析的结果，这些分析考察了各种大规模语言模型在化学方面的性能，包括 GPT-3.5 和 GPT-4。结果表明，ChemLLM 的表现远远优于其他类似规模的模型，其中 ChemLLM 在名称转换和分子字幕等任务上的表现优于 GPT-4。尤其是在化学反应预测任务中，ChemLLM 的表现优于 GPT-3.5，仅次于 GPT-4。这些结果展示了语言模型如何通过结合深层化学知识的指南，在化学领域提供高级理解。

与基础模型 InternLM2-7B-Chat 的有限性能相比，ChemLLM 的高性能也凸显了将专业化学知识纳入模型学习过程的价值。这项比较分析表明，化学专用语言模型的性能明显优于通用模型；使用 ChemBench 进行的评估量化了这些模型应对化学语言模型所面临的各种挑战的能力，并为考虑语言模型在化学研究中的作用和潜力提供了机会为从新的角度考虑语言模型在化学研究中的作用和潜力提供了机会。

下一步是评估一般语言技能。这里使用的是 "MMLU "和 "GSM8K"，因为MMLU（大规模多任务语言理解）是一项严格的语言建模能力测试，涉及 57 个学科，包括 STEM（科学、技术、工程和数学）、人文和社会科学。测试。GSM8K 是一套旨在确定语言模型数学能力的测试。它通过解决需要基本算术运算的 2 至 8 步问题来测试模特的多步数学推理能力。

尽管 ChemLLM 是一个专门研究化学问题的语言模型，但它在通用领域（如一般会话技能和逻辑推理）也表现出了卓越的性能。这意味着该专业模型可以通过跨学科知识实现深入理解：使用 MMLU 基准进行的评估显示，ChemLLM 在广泛的科学领域与类似规模的模型（如 ChatGLM3-6B、Qwen7B、LLaMA2-7B 和 Mistral-7B）相比毫不逊色。在多个领域表现出色。特别是在大学物理和数学方面的优异表现表明，化学培训提高了对相邻科学学科的概括能力。