
BioinspiredLLM "利用大规模语言模型进行生物材料研究的创新
三个要点
✔️ 生物启发材料设计革命:提出了一种新的大规模语言模型 BioinspiredLLM,以加速生物材料设计研究。
✔️ BioinspiredLLM 的文本挖掘和数据清理能力:BioinspiredLLM 使用 Q-A 处理提炼技术来挖掘和清理文本和数据。它能从正式文本中生成逼真的对话,并大大减少文本碎片。
✔️ 与生成式人工智能合作设计和开发高效材料:BioinspiredLLM 可以与其他生成式人工智能模型合作。这种新的生成式人工智能合作代理框架大大减少了设计和开发生物启发材料所需的时间和资源。
BioinspiredLLM: Conversational Large Language Model for the Mechanics of Biological and Bio-inspired Materials
written by Rachel K. Luu, Markus J. Buehler
(Submitted on Submitted on 15 Sep 2023 (v1), last revised 11 Dec 2023 (this version, v2))
Comments: Published on arxiv.
Subjects: Materials Science (cond-mat.mtrl-sci); Disordered Systems and Neural Networks (cond-mat.dis-nn); Soft Condensed Matter (cond-mat.soft); Machine Learning (cs.LG); Adaptation and Self-Organizing Systems (nlin.AO)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
材料科学、生物学和工程学的结合领域长期以来一直蕴藏着巨大的潜力。受生物结构启发的材料因其结构与性能之间的层次关系,有望彻底改变新型可持续高性能材料的设计。从犰狳壳到竹子和椰子壳,自然界中的材料具有无限潜力,人类尚未充分挖掘。然而,这些知识从生物研究到实际工程应用的转变才刚刚开始。
如今,向大自然学习作为应对环境问题的一种方法,其重要性再次得到肯定。在此背景下,材料信息学的进步为加速开发生物启发解决方案提供了新的机遇。特别是大规模语言模型等人工智能技术,有可能极大地推动这一领域的研究。这些模型正在从大量文本数据中学习,并对其在特定科学领域的知识进行微调,以超越原始模型。
此外,要了解自然界的复杂结构并将其应用于材料设计,需要将不同的知识领域进行转换和连接。生物材料方面的知识通常比化合物或蛋白质序列等方面的知识更为广泛。然而,自然界中的材料并没有集中描述其结构和特性的标准化方法。在这方面,自回归大规模语言模型有可能综合大量文献,为材料发现和设计过程提供一种新的辅助方法。
利用生物材料进行大规模语言建模的专业化是加速研究和发现生物启发材料的一个很有希望的步骤。向大自然学习并应用其知识有望为可持续发展的未来铺平道路。
生物启发LLM 概述
本文选择的基础模型是 Llama-2-13b-chat,这是一个开源的大规模会话语言模型。Orca-2-13b 使用的语料库包含 1000 多篇生物结构材料方面的专业文章。下图显示了语料库中使用的出版商和出版年份。
爱思唯尔、威利、施普林格-自然和美国化学学会等出版商发表了许多文章。
然后采用两种方法来训练模型:第一种方法使用原始文本,生成具有标准标记长度的数据;第二种方法称为 "Q-A 处理",使用原始的、未经精细调整的Llama-2-13b-聊天模型,这种方法利用文本内容进一步完善和清理文本,并从问答对中提取关键见解。
使用两种不同的方法对模型进行了微调,但发现使用传统非 Q-A 处理方法的模型有较高的不良信息残留。因此,本文采用了 Q-A 处理方法。
本文对上述 Llama-2-13b-chat 和 Orca-2-13b 模型都采用了 Q-A 流程,尤其是 Orca-2-13b 模型的性能有了显著提高,因此将该模型命名为 "BioinspiredLLM"。为便于比较,经过微调的 Llama-2-13b-chat 模型也被命名为 "Llama-BioLLM"。
下图显示了 BioinspiredLLM 架构的整体概览。它基于自回归变压器模型,说明了从系统提示到用户查询以及根据查询生成响应的过程。
本文还根据 Brodnik 等人提出的框架精心挑选了一些查询,以评估 BioinspiredLLM 的性能。这些查询涵盖了模型可能面临的三大任务。
第一项是 "知识回忆 "任务。第二项是 "假设生成 "任务。第三项任务是"生成式人工智能协作",评估模型在生物材料研究(包括实验设计、课题选择和应用领域)方面生成新见解和想法的能力。第三项任务是 "生成式人工智能合作",评估模型在生物材料研究方面(包括实验设计、课题选择和应用领域)产生新见解和新想法的能力。
通过这些评估,揭示了 BioinspiredLLM 在复杂的科学研究领域的潜力和适用性。文章特别介绍了假设生成任务和助理(生成式人工智能协作)任务。
假设生成
生物启发LLM 也是科学创造力的引擎。该模型可以回答它以前从未见过的课题,并通过提出新的预测和假设来指导研究人员。例如,用户可以向模型询问如何对文献中未明确研究过的课题进行实验。
在本例中,用户询问有关桉树胶果的研究。这是一种生长在桉树上的小型木质器官,根据搜索结果,以前的文献中没有对其进行过明确的研究。在这里,BioinspiredLLM 将先验学习中的一般知识与微调数据集中的生物材料及其特征知识进行了整合;BioinspiredLLM 依靠先验学习来识别桉树胶果,然后使用微调数据集中基于桉树胶果相关文章的实验建议来识别桉树胶果。根据有关植物材料特性的文章提出实验建议。其中包括吸水性和生物降解实验,这些因素通常会对生物材料的动力学产生重大影响。
作为另一个实验用例,BioinspiredLLM 需要对菠萝的机械特性进行假设,如下图所示。
Lazarus 等人最近对 Jackfruit 进行了研究。不过,这项研究是在数据集收集期结束后不久发表的,因此不在当前数据集中。这意味着 BioinspiredLLM 没有 "看到 "这项研究。
图中显示了 BioinspiredLLM 响应(图 a)与 Lazarus 等人直接绘制的图表(图 b)之间的比较。当被要求对菠萝刺的结构进行假设时,BioinspiredLLM 预测菠萝刺会形成一个有助于能量吸收和冲击负荷的网络,这一理论得到了 Lazarus 等人研究结果的有力支持。
此外,BioinspiredLLM 还指出了一个重要的保留意见。即棘刺也有助于控制裂纹扩展。正如 Lazarus 等人的紧凑拉伸实验所显示的那样,在这些实验中可以看到裂纹以可控的方式沿着泡沫基质在棘刺周围扩展。但这些发现预测了以下情况。
助理
BioinspiredLLM 可以协助完成各项研究任务。以下摘要要求 BioinspiredLLM 组建一个数据集。
BioinspiredLLM 可根据用户要求提供清晰有序的物种及其结构和机械特性图表。反应和扩展反应用于快速生成完整的生物材料数据集。此外,该方法还能限制人类在选择和分组物种和特性时可能产生的主观偏见。
在更多非常规和吸引人的场景中,BioinspiredLLM 可以协助进行提示工程,并与其他生成式人工智能模型合作。通过与文本到图像模型 Stable Diffusion 2.0 协作,BioinspiredLLM 还能帮助用户生成创意。下图展示了 BioinspiredLLM、Stable Diffusion 2.0 和用户之间合作的潜在工作流程。用户与 BioinspiredLLM 之间的对话,讨论使用文本到图像模型生成生物启发 2D 图像的适当提示 BioinspiredLLM 建议多个提示,并突出显示这些提示。
当用户要求 BioinspiredLLM 提供详细而具体的提示,以自然元素为灵感进行设计时,如藻类、羽毛、蜘蛛网、珊瑚等,BioinspiredLLM 输出的提示会被输入图像合成人工智能工具然后将 BioinspiredLLM 输出的提示输入图像合成人工智能工具 Stable Diffusion 2.0,并输入 Stable Diffusion 2.0,生成如下图所示的图像。它可以帮助用户集思广益。
所选图像还可利用热映射技术转换成三维模型,从而进一步扩大其应用范围。生成的三维模型可作为未来模拟和实验的基础,从而大大加快生物启发材料的设计和开发进程。
在另一个例子中,用户也可以向 BioinspiredLLM 征求将两种生物材料结构结合起来的想法,如下图所示。
BioinspiredLLM 提供了一些创造性的建议,如将植物细胞壁与动物蹄子、海绵体与骨骼、荷叶与蝴蝶翅膀相结合。BioinspiredLLM 不仅能与生物物种进行极具吸引力的组合,而且每个响应还能根据材料特性提供材料选择,概述新设计的逻辑,并对新设计的行为提出假设。
这些设计理念还被输入到稳定扩散 2.0 中生成二维图像,并从中选出一个转换成三维模型。很明显,这些生成式人工智能框架可以大大加快生物启发设计和原型的创建速度,而且通过利用 BioinspiredLLM 的生成式 "创造 "能力,研究人员可以在机械洞察力的支持下获得独特想法的指导。BioinspiredLLM.在人工智能生成技术的帮助下,生物启发材料的设计和开发时间可以大大加快。
摘要
本文提出了生物启发语言模型(BioinspiredLLM),这是一种具有生物结构材料专业知识的大型会话语言模型。该模型利用深度学习技术专门研究生物材料,其性能远远优于基础模型。
值得注意的是,通过 Q-A 流程提炼技术进行的文本和数据挖掘与清理,成功地从正式写作中创造出逼真的对话,并大大减少了文本碎片。
BioinspiredLLM 还能提供有关生物材料的准确而简明的信息,特别是通过使用检索辅助策略(RAG)。此外,该模型还能整合先前学习和微调的知识,为尚未揭示的生物材料提供新的见解和创意。对于以前从未明确研究过的材料,这一点尤为重要。在数据集生成、分组和聚类等任务中,BioinspiredLLM 可以成为研究人员的强大助手。
其中最有趣的一点是,BioinspiredLLM 在与其他生成式人工智能模型合作时展现出的巨大潜力。这种新颖的生成式人工智能合作代理框架可以大大减少设计和开发生物启发材料所需的时间和资源。有望开辟新天地。
与本文相关的类别