![[CACTUS]一种结合了 LLM 和化学工具的药物发现方法](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/October2024/cactus.png)
[CACTUS]一种结合了 LLM 和化学工具的药物发现方法
三个要点
✔️ CACTUS 是一个使用大规模语言模型和化学信息学工具来加速药物发现和分子性质预测研究的代理 ✔️ 使用大规模语言模型,在一组 1000 个化学问题上对 CACTUS 的性能进行了评估,其准确性明显高于参考模型。
✔️ 通过整合先进的计算技术和模型,提高易用性和可解释性,为治疗药物、催化剂和材料的发现和设计提供创新。
CACTUS: Chemistry Agent Connecting Tool-Usage to Science
written by Andrew D. McNaughton, Gautham Ramalaxmi, Agustin Kruel, Carter R. Knutson, Rohith A. Varikoti, Neeraj Kumar
(Submitted on 2 May 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Chemical Physics (physics.chem-ph); Quantitative Methods (q-bio.QM)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
大规模语言模型是基于转换器的基础架构模型,已被部署到各种服务中,并引起了广泛关注。然而,这些基于转换器的大规模语言模型虽然经过大量数据的训练,但在某些方面可能不够准确。目前的研究表明,增强大规模语言模型的工具可以弥补这些不足,提高解决问题的效率。研究还表明,通过为特定任务提供提示,可以提高模型生成文本的质量和速度。Parisi 等人提出的 TALM(工具增强语言模型)框架就是这些技术的结合体。该框架在既定任务上比现有模型取得了更好的性能。
不过,同样明显的是,大规模语言模型即使看似正确,也很难确保生成的答案展现出类似人类的推理能力和专业知识。基于模型从数据中学到的统计数据而产生的错误,在不同的应用中也会出现类似的情况。如果底层模型被集成到关键系统中,其失效会对用户产生重大不利影响。
GPT-4、LLaMA、Gemma、MPT、Falcon 和 Mistral 等大规模语言模型提高了许多领域的性能,但在面对需要访问动态或敏感数据的挑战时,它们的局限性就显现出来了。这凸显了大规模语言模型利用外部应用程序接口检索实时数据并提高其在实际应用中的实用性的必要性。
大规模语言模型的局限性更加明显,尤其是在化学、生物和材料科学领域。化学数据的复杂性与药物发现的动态背景相结合,被认为是一个复杂的挑战,纯粹的计算模型无法应对。为了解决这一问题,将处理化学信息的工具与大规模语言模型的认知和分析能力相结合被认为是非常有用的。
自主代理被认为是这一领域的前沿技术。这些代理可以利用各种大规模语言模型来完成特定任务,并使用应用程序接口和互联网搜索工具来收集相关材料和数据。例如,将代理集成到使用 KNIME 和 Galaxy 等工具的平台中,可以在用户和分析之间引入自然语言界面。这大大简化了科学发现和自主实验的过程。
受ChemCrow的启发,本文开发了CACTUS(连接工具 使用与科学的化学代理),这是一种先进的化学信息学代理,用于支持新药设计和分子发现。该代理可通过正确确定特定任务的最佳工具及其应用顺序,优化化学研发工作流程。
技术
TALM 由两个主要部分组成:外部工具和语言模型。本节将介绍语言模型代理的实现方式和使用的工具。
在构建 TALM 时,用于实现 TALM 的框架非常重要。本文使用了常用的开源平台 LangChain。该框架使用一组预置的 Python 模块(称为 "Chain")简化了提示和大规模语言模型的集成。它还便于与流行的大规模语言模型托管/推理平台集成,如 OpenAI API 和 HuggingFace Transformers。
CACTUS 使用定制的 LangChain 实现 MRKL 代理,它分为三个部分:工具、LLMChain 和代理类。第二部分,LLMChain,是 LangChain 特有的功能,它集成了工具和代理,是在执行任意推论时为大型语言模型提供的提示。这有助于模型的初始化和对用户输入的分析;CACTUS 提供的提示解释了代理回答化学信息学问题的步骤。
第三个代理类是 LangChain 实现的一个功能,在初始提示后解释用户输入,确定最佳操作并解决问题 CACTUS 使用 ReAct 框架从工具描述 Zero shot 中确定要使用的工具。它使用代理类的通用实现。
该工具、LLMChain 和 Zero-Shot Agent 的结合使 CACTUS 能够快速集成新工具和可扩展的大规模语言建模工具,从而能够解决各种化学信息学问题。
下图显示了 CACTUS 代理的一般工作流程,说明了大规模语言模型如何解释输入内容,以选择正确的工具并获得答案。
从用户输入开始,CACTUS 采用标准的 "思维链"(CoT)推理方法,包括计划、行动、执行和观察等阶段,以获得输出结果。
CACTUS 还集成了大量工具,这些工具集成了 RDKit 和 SciPy 等常用 Python 库,可创建功能强大的大规模语言模型代理,回答各种化学信息学问题。它还为 PubChem、ChEMBL 和 ZINC 等数据库提供了接口。这些工具支持基于聊天的分子分析,从 SMILES 字符串到分子描述符、相似性、吸收、分布、代谢和排泄(ADME)属性等信息。
该模型由 10 种不同的工具组成,可提供输入化合物的各种描述符信息。下表列出了目前可用的工具。它有助于获得输入化合物的不同理化性质和分子描述符。其中包括分子量、分配系数对数(LogP)、拓扑极性表面积(TPSA)、类药物性质定量估算(QED)和合成难易度(SA)。
此外,ACTUS还能使用 BOILED-Egg 方法估算药物动力学特性,如 C 血脑屏障渗透性和胃肠道吸收。该模型还采用了类药物、PAINS 和 Brenk 过滤器来识别结构和毒性警报。这些工具可以识别和筛选现有的和新的先导化合物。
目前,只使用简单的 SMILES 作为输入,但作者计划将来将其扩展到各种用户输入,如化合物名称、分子式、InChI key、CAS 编号、ChEMBL ID 和 ZINC ID。
我们还研究了提示对代理的重要性。LangChain 实现的大规模语言建模代理提供了一个默认提示,该提示还提供了关于可用工具和大规模语言建模任务的一般说明。然而,这并不一定是为理解特定领域信息而优化的,仍有改进的余地。为了测试这一假设,我们运行了两种情况:一种是 "最小提示",即不修改默认提示,只包含工具说明;另一种是 "领域提示",即代理在使用工具时,只提供工具说明。另一种是 "领域提示",即代理更适合化学领域。
与领域一致的提示被认为可以更好地解释问题,并提高对用户查询的响应效率。由于在测试中使用了大量大型语言模型,最低限度的提示也包括了特定于模型的标记,以确保模型不会因领域提示而受到不公平的评估。
评估特定领域的 TALM 也很困难,但可以效仿通用基准套件。因此,它依赖于一组问题,这组问题复制了代理通常会遇到的问题,并评估代理是否能正确回答这些问题,而无需用户进行额外的提示工作。
为评估 CACTUS,根据该工具的输出创建了三组问题。第一组是定性问题,返回 "是/否 "或 "真/假 "等答案;第二组是定量问题,返回数值,由代理进行解释;第三组是 "综合问题",结合了定性和定量问题。
下表列出了作为用户输入传递给 CACTUS 代理的问题示例。定性和定量数据集各包含 500 个问题,而综合数据集包含 1000 个问题。为了测试大型语言建模代理执行各种任务的能力,大部分测试都是在综合数据集上进行的。
实验和结果
CACTUS 的实施为化学信息学领域做出了巨大贡献,为从事分子发现和药物设计的研究人员和化学家提供了强大而灵活的工具。在这里,"对各种 7b 参数模型的基准研究揭示了 CACTUS 的稳健性和效率,突出了其简化和加速药物发现过程的潜力。
CACTUS 的性能已通过一组涵盖 10 种不同工具的 1000 个问题进行了评估。每个 7b 参数模型也在有和没有领域提示的情况下进行了评估。如果回答不正确、无法得出答案或错误使用了所提供的工具,则标记为错误(不正确)。
试卷没有区分使用不正确的工具和简单的错误答案。任何未能提供一致答案的问题也被视为不正确。如果附加了包含正确答案的格式化文本,这是可以接受的,但这不是首选格式。这些附加信息可以通过设计附加提示来删除或减少。在整套问题中,每种类型的问题都会被问到 100 次,对应于 10 种不同工具的 10 个不同问题。
这种方法可以找出对模型更具挑战性的工具,并发现工具描述和模型提示中需要改进的地方。上图显示的结果说明了特定领域的提示对提高模型回答准确性的重要性。这一点在定性问题上尤为明显。这与最近强调提示工程在提高语言模型性能方面的作用的研究结果是一致的。
随着人工智能的发展及其在科学探索中的应用,分析不同模型在处理特定领域任务时的比较效果非常重要。
下图所示的基准分析提供了关于不同语言模型在最小和特定领域信息提示下的性能的重要见解。通过对各种问题类型的性能数据进行全面审查,我们发现 Gemma-7b 和 Mistral-7b 模型表现出了稳健性和多功能性,无论提示信息的性质如何,它们都表现出色。
对各种问题类型的性能数据进行全面审查后发现,Gemma-7b 和 Mistral-7b 模型表现出稳健性和多功能性,无论提示的性质如何,都具有出色的性能。这些一致的准确性表明,从药物亲和性和血脑屏障通透性等理化性质,到定量药物亲和性估算 (QED) 等更复杂的测量方法,它们在分子科学领域的各种查询中都具有很强的可信度。另一方面,Falcon-7b 模型在最小提示和领域提示之间显示出明显的性能差异。这种差异表明,Falcon-7b 需要更详细的提示调整才能有效发挥其潜力。基于提示类型的巨大性能差异表明了模型对输入结构和内容的敏感性,这对于开发有效的查询策略非常重要。
此外,如下图所示,Phi2 和 OLMo-1b 等较小的型号在消费级硬件上也显示出卓越的性能。这表明,强大的化学信息学工具具有平民化的潜力。这将使计算资源有限的研究人员也能利用 CACTUS 的功能。
这项全面的模型比较和分析结果表明,在科学环境中使用开源模型具有广泛的意义。模型在特定领域提示下的良好表现尤其令人期待,这表明在适当的环境中,开源模型可以成为非常有效的工具。
Gemma-7b 和 Mistral-7b 模型所展示的适应性表明,它们广泛适用于各种计算环境,从高性能集群到较为普通的研究环境。此外,有效提示开源模型的能力使它们能够在各种科学环境中使用。这样,研究人员就可以根据特定领域定制模型,从而缩小通用人工智能能力与领域专业知识之间的差距。
这些模型的灵活性和性能对科学研究也有重大影响,特别是在合成有机化学和药物发现等领域。对于这些领域的研究人员来说,有效利用开源模型的能力可以加快发现过程、提高预测准确性并优化计算资源。从这项基准研究中获得的见解可以为选择和定制模型提供路线图,以满足特定的研究需求,最大限度地支持实现科学目标。对选定的 7b 参数模型进行的基准研究展示了人工智能驱动的研究工具的进步,并强调了优化提示的必要性以及开源模型在各种科学探索中的前景。这项分析表明,这些模型有可能成为计算化学家工具包中不可或缺的一部分,为分子设计和药物发现方面的创新突破铺平道路。
虽然CACTUS已经展示了估算输入化合物基本指标的能力,但作者表示,它的目标是在未来发展成为一个专门用于设计和发现治疗药物的综合性开源工具。为实现这一目标,他们计划整合以下功能
- 介绍基于物理的分子 AI/ML 模型。
- 它们包括三维支架、强化学习和图神经网络(GNN)。这些模型与分子动力学模拟、量子化学计算和高通量虚拟筛选相结合,对于准确模拟分子相互作用以及预测治疗药物的疗效和安全性至关重要。
- 它们包括三维支架、强化学习和图神经网络(GNN)。这些模型与分子动力学模拟、量子化学计算和高通量虚拟筛选相结合,对于准确模拟分子相互作用以及预测治疗药物的疗效和安全性至关重要。
- 采用高级功能来识别结构和化学相似的化合物以及对生物活性很重要的片段。
- 研究人员将能够更高效地探索广阔的化学空间,并高精度地识别先导化合物。这些附加功能可大大提高药剂师了解化合物在三维空间中行为的能力,并有助于开发全面有效的工作流程,用于发现治疗药物和设计材料。
- 从广泛的化学数据库中识别重要片段和具有相似结构和化学特性的化合物的其他工具。
- 计算物理化学和药物动力学特性的工具以及约 60 个其他描述符可添加到制剂中,以确定定量结构-活性关系 (QSAR) 和定量结构-特性关系 (QSPR),从而帮助筛选化合物和确定毒性组别。
- 计算物理化学和药物动力学特性的工具以及约 60 个其他描述符可添加到制剂中,以确定定量结构-活性关系 (QSAR) 和定量结构-特性关系 (QSPR),从而帮助筛选化合物和确定毒性组别。
它进一步指出,除了这些技术改进外,它的目标是使 CACTUS 具备更强的解释和符号推理能力,以解决对大规模语言模型的一个常见批评:推理和提供可解释输出的困难。通过整合先进的符号推理能力,CACTUS 的预测和分析功能有望变得更加强大,为用户提供可理解的、符合逻辑的建议和预测解释。我们希望这项功能能够自动预测候选药物分子与蛋白质等靶点的相互作用,并为新化合物的疗效提供有价值的见解。
CACTUS 的应用不仅限于药物发现,还扩展到化学、催化和材料科学等其他领域。在催化领域,CACTUS 可以根据催化剂的结构和化学特性预测其性质和性能,并协助发现和优化新催化剂。同样,在材料科学领域,CACTUS 可以通过探索广阔的化学空间,确定有希望的候选材料并进一步进行实验验证,从而协助设计具有理想性能的新材料。
CACTUS 未来的发展方向是为发现和优化治疗药物以及催化和材料创建一个智能和全面的科学信息学工具。通过整合先进的计算技术和模型,提高可用性和可解释性,CACTUS有望成为发现新的、有效的和安全的治疗方法以及优化催化剂和材料的重要资源。
摘要
本文介绍了一种新的开源代理CACTUS,它利用大规模语言模型和化学信息学工具来加速药物发现和分子性质预测领域的研究。通过整合一系列计算工具和模型,它为研究人员和化学家提供了一个全面、易用的平台,帮助他们探索广阔的化学空间,发现有治疗应用前景的化合物。
我们使用 Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b 和 Mistral-7b 等开源大规模语言模型,在一组 1000 个化学问题上对 CACTUS 的性能进行了评估。结果表明,无论使用何种提示策略,CACTUS 都明显优于参考的大规模语言模型,尤其是 Gemma-7b 和 Mistral-7b 模型的准确率最高。此外,还研究了特定领域的提示和硬件配置对模型性能的影响,强调了提示工程的重要性以及在消费类硬件上部署小型模型的潜力。 像Phi这样的小型模型可以在消费类硬件上实现高准确度这表明 CACTUS 具有更广泛传播和使用的潜力。
随着 CACTUS 与其他计算工具和自主发现平台的不断整合,CACTUS 有可能彻底改变药物发现、催化剂设计和材料科学的方法。全面的化学信息学工具,以确保在识别和设计治疗药物、催化剂和材料方面的高安全性和高效性。作者的目标是通过整合先进的计算技术和模型,以及改进易用性和可解释性,使 CACTUS 成为各科学学科研究人员不可或缺的资源。
与本文相关的类别