大规模语言模型在化学和材料科学中的应用和前景，从黑客马拉松的成功中可见一斑

大型语言模型 01/04/2024

三个要点
✔️ 大规模语言模型的潜力展示：通过黑客马拉松活动，在几个小时内就实现了复杂的原型，展示了大规模语言模型在化学和材料科学领域的研究潜力。
✔️ 化学和材料科学领域的新建模方法：在化学和材料科学领域使用大规模语言模型，结合上下文信息，处理非结构化数据的新方法。
✔️ 新的挑战和不同专家之间合作的必要性：解决大规模语言模型的透明度和获取问题，以及不同专家之间为安全使用和下一代教育进行合作的必要性。

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon
written by Kevin Maik Jablonka, Qianxiang Ai, Alexander Al-Feghali, Shruti Badhwar, Joshua D. Bocarsly, Andres M Bran, Stefan Bringuier, L. Catherine Brinson, Kamal Choudhary, Defne Circi, Sam Cox, Wibe A. de Jong, Matthew L. Evans, Nicolas Gastellu, Jerome Genzling, María Victoria Gil, Ankur K. Gupta, Zhi Hong, Alishba Imran, Sabine Kruschwitz, Anne Labarre, Jakub Lála, Tao Liu, Steven Ma, Sauradeep Majumdar, Garrett W. Merz, Nicolas Moitessier, Elias Moubarak, Beatriz Mouriño, Brenden Pelkie, Michael Pieler, Mayk Caldas Ramos, Bojana Ranković, Samuel G. Rodriques, Jacob N. Sanders, Philippe Schwaller, Marcus Schwarting, Jiale Shi, Berend Smit, Ben E. Smith, Joren Van Herck, Christoph Völker, Logan Ward, Sean Warren, Benjamin Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Zia, Aristana Scourtas, KJ Schmidt, Ian Foster, Andrew D. White, Ben Blaiszik
(Submitted on 9 Jun 2023 (v1), last revised 14 Jul 2023 (this version, v4))
Subjects: Materials Science (cond-mat.mtrl-sci); Machine Learning (cs.LG); Chemical Physics (physics.chem-ph)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

近年来，机器学习与化学和材料科学的结合取得了显著进展。从加速模拟到预测特定化合物和性质，机器学习为科学探索开辟了新的可能性。然而，尽管取得了这些进展，针对个别问题开发特定模型仍是常态，科学探索的多样性和复杂性使得开发通用工具充满挑战。

特别是在化学和材料科学领域，数据格式和实验方法的描述具有明显的多样性和背景依赖性。这使得将数据整合并转化为机器学习模型的工作充满挑战，科学家们也很难创建 "粘合代码 "来连接不同的工具和复杂的工作流程。

大规模语言模型在应对这一挑战方面的潜力备受关注。特别是，GPT-4 等大规模语言模型为解决传统方法难以解决的问题提供了新的途径。事实证明，这些模型在从非结构化文本中提取知识和通过自然语言创建工具之间的界面方面特别有效。

本文报告了黑客马拉松活动的成果，该活动旨在探索该技术在化学和材料科学领域大规模语言建模的潜力。在这次黑客马拉松活动中，与会者提出了一系列项目，并在实践中制作了原型，包括预测建模、自动化、新界面开发、知识提取和教育，如下表所示。

这些黑客马拉松活动表明，大规模语言模型具有彻底改变科学研究的潜力，可以成为未来研究的基本工具。本文介绍了黑客马拉松的部分成果。

原型介绍

第一种是利用大规模语言模型的遗传算法。遗传算法采用的是一种进化方法，通过构件的交叉和变异来产生更好的结构。麦吉尔大学的研究团队认为，将大规模语言模型纳入遗传算法有可能显著提高这一过程的效率。

首先，大规模语言模型展示了理解和高效重构代表化学结构的 SMILES 字符串的能力。在最初的实验中，GPT-3.5 以 70% 的成功率正确分解了分子（片段）。此外，在重组两个分子时，大规模语言模型往往比随机方法产生更合理的化学结构。有机化学家的评估证实，大规模语言模型生成的所有分子在化学上都是合理的（Reproduce），麦吉尔大学团队要求大规模语言模型根据特定的性能指标提出新的分子。这一初始阶段的结果表明，大规模语言模型可以提出化学上合理的改进方案（优化）。

该原型表明，大规模语言模型可以成为生成化学结构和改进现有结构的强大工具。然而，这项技术仍处于早期阶段，挑战依然存在，特别是在准确生成 SMILES 方面。麦吉尔大学研究团队的研究结果表明，使用大规模语言模型的遗传算法有可能彻底改变化学品的设计和改进。.这种方法比传统方法更有效，可能为发现新的化学结构铺平道路。

第二个是 MAPI-LLM。电子结构计算的精确度已达到如此高的水平，以至于诸如 "材料 AnByCz 是否稳定？这样的问题现在已经可以回答了。事实上，"材料项目 "存储了许多成分的热力学数据，可以对特定材料的稳定性做出合理估计。另外，如果数据库中没有某种材料，也可以进行模拟。同样，对于 "告诉我生成 CaCO3 的反应 "这样的问题，材料计划数据库和互联网上有大量有用的信息，可以帮助您找到答案。

最先进的计算工具和现有数据库可用来回答这些问题。不过，使用这些工具和数据库需要专业知识。要使用现有数据库，需要选择使用哪个数据库、如何查询数据库以及使用哪种化合物表示法（如国际化学标识符（InChI）、SMILES 等）。如果数据库中没有数据，则需要进行计算，这就需要深入了解技术细节。大规模语言模型可以简化此类工具的使用。通过输入一个问题，您可以提示大规模语言模型将该问题转化为工作流程，从而得出答案。

MAPI-LLM 团队为开发这样一个系统（MAPI-LLM）迈出了第一步，提出了诸如 "材料 AnByCz 是否稳定？等问题，并创建了一个程序，将文本提示转换为材料项目应用程序接口（API）查询，以回答 "这种材料是否稳定？此外，MAPI-LLM 还可用于回答 "Fe2O3 是否具有磁性？和分类查询，如 "Mg(Fe2O3)2 有多少带隙？等分类查询，以及 "Mg(Fe2O3)2 有多少带隙？

为了使用大型语言模型创建工作流，MAPI-LLM 还可以处理更复杂的问题。例如，"如果 Mn23FeO32 不是金属，那么它的带隙是多少？创建了一个两步工作流，首先检查材料是否是金属，如果不是，则计算其带隙。此外，当 MAPI 无法提供材料属性数据时，MAPI-LLM 会应用 ICL；MAPI-LLM 会生成 ICL 提示，并根据材料项目数据库中的类似材料数据建立上下文。然后，大规模语言模型利用该上下文推断未知材料的属性。对 ICL 的这一创新使用填补了数据空白，提高了 MAPI-LLM 的稳健性和通用性。

第三个是 sMolTalk。一般来说，化学软件都有一个问题，那就是需要花费大量时间来学习如何操作。可视化软件就是一个例子。sMolTalk的开发团队可以通过使用大规模语言模型来编写3dmol.js等可视化工具的代码，来解决这一低效问题。下图显示了界面。只需几个用户输入示例和几个显示操作 3dmol.js 查看器的预期 JavaScript 代码的截图提示，例如从蛋白质数据库（PDB）中检索蛋白质结构并以特定方式对结构的部分内容进行颜色编码，可视化工具就能在短时间内实现可视化。创建解决方案的界面原型。

在本例中，用户输入了一连串的四条命令。大规模语言模型 (1) 生成检索结构的代码，(2) 将碳染成蓝色，(3) 将氢显示为红色球体，(4) 缩小球体大小。

语言模型的妙处在于，用户可以用各种（"模棱两可 "的）方式编写提示。如果你写的术语是 "颜色 "或 "颜色"，或者 "浅黄色 "或 "淡黄色"，大型语言模型就会将它们翻译成可视化软件可以解读的内容。

不过，该应用也凸显了进一步开发这些基于大规模语言模型的工具的必要性。例如，sMolTalk 工具面临的挑战之一就是鲁棒性。具体来说，这就是用户输入的提示语中的意外片段或部分内容被包含在生成输出中的问题。这是由于模型误解了提示的部分内容，导致输出中包含了不相关的信息。要解决这个问题，需要使用更复杂的方法。例如，"重试 "是一种在模型出错时读取错误信息以了解出错原因、解决问题并重试的方法。这需要授予模型访问错误信息的权限，以便它能够理解自己的错误信息，并根据错误信息决定下一步的操作。

第四个是 I-Digest 教育工具。大规模语言模型也能提供新的教育机会。I-Digest 团队提出了一种提供新教育机会的工具，即根据课程材料（如讲座录音）提供数字导师。可以转录成文字誊本。然后，可以将这些文本输入大规模语言模型，并通过提示让学生就视频中的内容提出问题。将来，这些问题可以在视频开始前向学生提出，让他们跳过已经知道的部分，也可以在视频结束后向学生推荐相关的时间戳和额外材料，以防学生回答错误。

重要的是，与传统教材相比，这种方法几乎可以生成无限数量的问题，并可根据学生的反馈在未来不断改进。此外，我们还可以很容易地设想，将这种方法扩展到讲义和书籍中，以进一步指导学生或推荐特定的练习。

摘要

参加黑客马拉松的团队能够在短时间内展示实现复杂任务的原型，这表明了大规模语言模型的潜力。这些原型可以在短短几个小时内实现，但传统上需要数月的编程工作。通过在低风险环境中进行实验，参加黑客马拉松的团队获得了前所未有的动力和成果。

大规模语言模型的使用为化学和材料科学等新领域的建模提供了可能。这包括结合上下文信息和直接处理非结构化数据。Copilot 和 ChatGPT 等工具的出现，消除了编程和工具开发中的不确定性。这些进步正在开辟一个未来，让最终用户可以轻松创建和定制应用程序。

有趣的是，许多工具的逻辑也是用英语而不是编程语言编写的。这使得生成的代码比以前更简短、更易懂、依赖性更低。虽然这证明了用自然语言描述技术解决方案的有效性，但也需要认识到大规模语言模型在可解释性和缺乏稳健性方面的局限性。

此外，使用 OpenAI 的应用程序接口（API）使其不清楚如何建立模型并保证可靠的访问；虽然 OpenAI 的应用程序接口易于使用，但这种公开的大规模语言模型的性能可能不稳定，尤其是在新型应用中。OpenAI API 易于使用，但这种公开的大规模语言模型的性能可能不稳定，尤其是在新型应用中。因此，使用分子和材料科学需要开发专门针对分子和材料科学的新基准。这就需要一个框架来评估它们处理上下文和非结构化数据的能力。

此外，探索这些大规模语言模型的潜力需要化学家、计算机科学家和法律专家等各类专家的通力合作。安全使用这些工具、评估标准、稳健部署和教育以确保下一代科学家能够有效使用这些工具也是重要的问题。