使用 ChatGPT 的人工智能代理挖掘化学文献的演变

大型语言模型 11/11/2024

三个要点
✔️ 提出一种人工智能代理在化学文献挖掘中的新方法
✔️ 这种新方法可节省大量人力并使任务自动化
✔️ 设计一种新方案来评估人工智能代理在文献挖掘中的性能

An Autonomous Large Language Model Agent for Chemical Literature Data Mining
written by Kexin Chen, Hanqun Cao, Junyou Li, Yuyang Du, Menghao Guo, Xin Zeng, Lanqing Li, Jiezhong Qiu, Pheng Ann Heng, Guangyong Chen
(Submitted on 20 Feb 2024)
Comments: Published on arxiv.
Subjects: Information Retrieval (cs.IR); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Quantitative Methods (q-bio.QM)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

由于应用范围广泛，化学领域在材料合成和药物开发方面发挥着尤为重要的作用。对新材料的研究促进了能源、环境科学和纳米技术的发展，也为新药物的开发和生命科学的进步做出了重要贡献。然而，尽管已经积累了大量的化学反应数据，但如何有效利用这些数据来发现新的反应方案，并将其用于材料合成和药物开发，仍是一个挑战。因此，人工智能的应用备受关注。

人工智能可以从大量现有数据中学习并预测新反应的结果，从而识别反应特征和模式。这使化学家能够快速筛选和评估各种反应条件，优化合成途径。此外，通过将人工智能与反应预测和优化算法相结合，还可以生成和识别高效的合成途径。分析化学反应和发现新反应需要大量反应方案方面的专业知识。揭示数据中隐藏的关系和模式，找到反应的共同特征和机理，对于化学家理解反应的基本原理和设计新反应至关重要。

这就需要对化学反应数据进行整合和知识管理。通过自动数据收集、组织和注释，人工智能建立了化学反应综合数据库，使化学家能够轻松访问和使用数据。这提高了数据的可发现性和可复制性，使研究人员能够更好地利用现有知识。

然而，在处理化学反应文献数据时，以往的人工智能技术也遇到了一些挑战。首先，这些数据大多没有经过系统的整理，要从纷繁复杂、卷帙浩繁的文献中提取精华信息是一项非常艰巨的任务。这就要求人工智能具备先进的上下文分析能力，以及识别文本风格和内容模式的能力。

近年来，大规模语言模型 ChatGPT 的问世将人工智能在化学领域的应用推向了一个新的高度。这为通过人工智能进行文献挖掘和化学探索提供了新的可能性。

传统的文献信息提取方法包括人工提取、基于规则的提取和基于模型的提取，但人工提取依赖化学家的劳动，增加了成本，而基于规则的提取很难适应新的文献。基于模型的提取也因缺乏注释反应的数据而性能不佳。

本文提出了一个基于强大人工智能代理（以下简称AI 代理）的端到端框架，以应对这些挑战。该代理基于 "自动识别 "和 "推理决策"，可有效利用大规模语言模型，从而节省大量人力并提高模型性能。它还开发了新的多任务文献挖掘方案，并使用 Chat-GPT 建立高效的提示。这不仅增强了与文献数据库的交互环境，还能自动改进提示。

此外，还提出了一个使用精确度、召回率和 F1 分数的新评估系统，以衡量人工智能代理在提取化学反应相关信息方面的有效性。此外，还通过比较专家和人工智能的表现来检验人工智能代理的有效性。

方法

下文概述了基于大规模语言模型的化学文献分析和反应信息提取人工智能代理框架。

开发人工智能代理的第一步是获取高质量的文献数据集。本文从科学集市（Sci-Hub）收集了大量化学文献，尤其侧重于有机化学中著名的 "Suzuki-Miyaura 偶联 "文献。为了将收集到的文献作为数据加以利用，我们使用了光学字符识别（OCR）技术。这样就可以将 PDF 转换成文本，以便进行计算处理。

但需要注意的是，对于复杂的布局和低质量的扫描，OCR 可能容易出错。考虑到 OCR 过程中的误差，本文引入了质量控制机制，以确保数据集的可靠性。在每篇参考文献中，"一般程序"、"典型程序 "和 "一般实验 "等关键词通常表示详细的方法，如果不包含这些关键词，则会被视为质量不高，并从数据集中剔除。同样，如果这些关键词被包含超过五次，也会被认为不适合提取过程，并被排除在外，因为它们通常表示过于复杂或繁琐的方法。这一过程最终产生了由 1,000 篇参考文献组成的数据集�

接下来，人工智能代理将从文献中提取化学反应的条件。人工智能代理可以像化学家一样分析文献，并有效地提取必要的信息。首先，人工智能代理从标准化文本中提取化学信息。这类似于化学家从实验笔记中提取反应的关键数据。

这项任务提取了有关产量、反应物、催化剂、溶剂和产品的信息；人工智能代理通过多任务框架和上下文学习实现了这一目标�

人工智能代理首先通过搜索化学文献中常用的关键词和短语来识别描述反应条件的文本段落。通过应用多种算法从识别出的段落中提取信息，从而获得包含每个反应的产率、反应物、催化剂、溶剂和产物信息的数据集。下图显示了人工智能代理上下文学习过程中的提示、输入和输出示例。

接下来，人工智能代理会识别化学文献中的 "共参照"。共参用于替代冗长而复杂的化学名称，但机器很难理解；人工智能代理利用 GPT 理解上下文的能力来准确识别这些共参。具体来说，我们会对上下文进行深入分析，并根据常用模式对核心参照进行验证。下图展示了人工智能代理在上下文学习过程中的提示、输入和输出示例。

人工智能代理在识别共同参照后，还会将其映射为完整的化学名称。这样就能将缩写转换成完整的形式，从而将其视为与上下文无关的信息。人工智能代理利用 GPT 理解上下文的能力来确定核心参照的定义，然后分析句子的结构，将信息连接在一起。这种映射以结构化的格式记录下来，并可根据需要进行更新。

最后，人工智能代理会用相应的化学全名替换文本中的所有核心关键词。具体做法是创建一个以核心词为键、化学全名为值的字典，然后处理文本，并在每次找到核心词时将其替换。这样，文本中的所有缩略词都会被完整的化学名称所取代，从而使信息提取更加准确和简便。

实验结果

人工智能代理旨在成为化学家的高效支持者，快速获取高质量的反应信息并降低时间成本。因此，对其性能进行量化测量并与人类专家进行比较非常重要。为了研究这一框架的有效性，本文提出了一种新的方法，用于评估基于 GPT 的文献挖掘方法的熟练程度。

评估过程的重点是评估铃木-宫浦偶联反应中涉及的反应物、试剂、溶剂、产物和产率的质量。为了对其进行量化，引入了使用精确度、召回率和 F1 分数的评估方案。这些指标评估了准确提取反应信息和全面搜索反应相关元素的能力。

ChatGPT 生成的结果会被检索和存储，以便与人类专家收集的结果进行比较。本文注释了 17 篇参考文献和 326 条回复，以验证人工智能代理的有效性。结果如下表所示，平均准确率为 90.14%，召回率为 77.13%，F1 分数为 83.11%。

由于目前还没有其他从期刊中提取化学反应数据的开源工具，本文主要研究人工智能代理与人类化学家手工数据的有效性和性能比较。评估的主要指标是准确性、平均成本和平均速度。为了尽量减少人类化学家的不确定性和随机性，我们挑选了 10 名化学专业的研究生（硕士生或博士生）进行人工数据收集。这些化学专家得出的结果被平均化，并与人工智能代理进行比较。下表显示，人工智能代理实现了较高的准确性，在平均成本和平均速度方面表现出色。