赶上最新的AI论文

材料信息学 Matlantis™,一个通用的原子级模拟器

材料信息学 Matlantis™,一个通用的原子级模拟器

材料信息学

三个要点
✔️ 由Preferred Networks和ENEOS联合开发
✔️ 有可能学习到解释材料现象的复杂的化学和固体物理学理论
✔️ 实现卓越的多功能性,无需为每个目标任务进行学习

PFP: Universal Neural Network Potential for Material Discovery
written by So TakamotoChikashi ShinagawaDaisuke MotokiKosuke NakagoWenwen LiIori KurataTaku WatanabeYoshihiro YayamaHiroki IriguchiYusuke AsanoTasuku OnoderaTakafumi IshiiTakao KudoHideki OnoRyohto SawadaRyuichiro IshitaniMarc OngTaiki YamaguchiToshiki KataokaAkihide HayashiTakeshi Ibuka
(Submitted on 28 Jun 2021)
Comments: Published on arxiv.

Subjects: Materials Science (cond-mat.mtrl-sci); Computational Physics (physics.comp-ph)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

Matlantis™,通用的原子级仿真器

Matlantis™"是Preferred Networks和ENEOS联合开发的结果。Matlantis™。

这项服务允许使用机器学习对材料的性能进行预测、模拟和探索。这项服务因其多功能性而在材料信息学领域吸引了很多人的注意。

在这个问题上我想介绍一下在 "Matlantis™"中使用的一种叫做 "PFP "的东西。本文由Preferred Networks和ENEOS提供。

材料搜索和神经网络电位(NNP)。

世界上有许多不同的元素,由这些元素的组合组成的物质数量是一个天文数字。基于量子化学理论的计算机模拟,如DFT计算,是处理这些问题的一种有效方式。

然而,使用DFT计算来详尽地寻找物质是很困难的。目前,像DFT计算这样的模拟在计算上很昂贵。另外,结构越复杂,计算就越费时。

因此,基于机器学习的材料搜索方法一直备受关注。特别是,将神经网络与巨大的数据集结合起来的神经网络电位(NNPs)引起了人们的广泛关注。

然而,有一个挑战。然而,有一个挑战:缺乏多功能性。在许多情况下,为某一特定物质类别建立的模型不能用于预测其他物质类别。准确预测结构未知的物质的性能也是非常困难的。因此,NNP也有很大的挑战。 然而,受NNP即使在少量数据集和参数的情况下也能准确预测的结果启发,我们在本研究中旨在利用NNP建立一个通用的模型。

特别是,为本研究准备的数据集具有以下特点

  1. 我们积极收集关于不稳定物质结构的数据,即使它被认为对提高模型的稳健性和通用性很重要。
  2. 其中一些是构成已知晶体结构和分子的原子的不规则替换,另一些是各种元素的无序结构,还有一些改变了它们的周围环境,如温度和密度。

最后,这项研究开发了一个名为 "预推潜力"(PFP)的模型,它是一个通用的NNP。PFP可以处理周期表中45种元素的各种组合。主要的预测是基于从原子结构中确定势能面,这是预测特性的基础。

periodic_table_20211225

图1 可由PFP处理的元素(蓝色:可处理的元素)

建立模型

神经网络电位(NNP)的NN受到一些特性的影响,以描述原子结构。

这些包括材料结构的旋转不变性(SO(N))、平移不变性(SE(N),包括旋转不变性)和镜像不变性(E(N),包括旋转和平移不变性)。为了提高原子结构描述的性能,也有必要在设计时使与原子位置坐标等有关的高阶特征不致丢失。

例如,原子环境矢量(AEVs)和基于节点的机器学习势(MLPs)以键距和角的方式表示原子的位置。

它们可以充分地代表位置关系,同时保持上述的不变性。然而,它们的缺点是没有像图式神经网络(GNN)那样的信息传递机制,这使得它们很难远距离传递位置信息。因此,如表1所示,现有的各种方法都是为了处理GNN结构中的高阶特征。

表1 由MLP和GNN组成的现有模型

GNN_based_method_20211225

其中,TeaNet具有E(3)不变性,可以处理高阶特征,如二阶张量。

因此,作者采用了具有TeaNet风格的基于张量的卷积层的GNN结构作为本研究中处理的模型的核心。尽管本研究中的NNPs结构是一个GNN结构,但它是一个局部相互作用模型,其设置使无限远的原子不会相互作用。这种设置降低了计算成本,提高了通用性。

而在DFT和分子动力学计算中,计算的稳定性有助于得到的能量表面的平滑性。偶尔,可能需要进行高阶导数计算。

因此,我们模型的结构被设计成允许能量随着原子的位置而被区分到更高的等级。

数据集

公共数据集,如材料项目(MP),包含材料的 "优化结构 "数据,例如通过DFT计算得到的数据。然而,仅靠优化的结构还不足以实现物质搜索的通用潜力。

这是因为化学反应、扩散现象和结晶相的变化经常在远离优化结构的状态下进行。在这项研究中,我们收集了关于振荡和无序结构以及优化结构的数据,以实现一个通用的潜力。随着数据集的不断增长,我们期望这一机制在从广泛的条件中学习方面变得越来越有效。

表2列出了公共数据集和本研究中构建的数据集的数据类型(在底部)。

表2 各种公布的数据集及其内容

dataset_MPetc_20211225

作为一个系统,

  1. 分子:分子结构(主要是小的有机分子)。
  2. 体积:晶体结构(不考虑表面)。
  3. 集束:一个小的原子群
  4. 板块:表面结构
  5. adsorp.:吸附在表面上的分子的结构
  6. 无序:无序结构,无定形结构(非结晶)。

而公开的数据集只拥有每一种的一部分,而我们的数据集是详尽的。

various_structure_20211225

图2用于DFT计算的单元中代表不同结构的图像。(a)分子结构,(b)晶体结构,(c)表面结构,(d)簇状结构,(e)分子在表面的吸附,(f)无序结构

至于结构方面

  1. opt.:优化结构(具有最低能量的最稳定结构)
  2. vib. 结构
  3. MD : 从分子动力学(MD)模拟中获得的结构与变化

我们的数据集包含这些不同结构的数据。它还涵盖了45个要素。

PFP的计算速度

我们评估了典型模拟方法、DFT和PFP的计算速度。令人惊讶的是,PFP计算3000个铂(Pt)原子只需要0.3秒。

另一方面,通过DFT计算获得同样的信息需要 "大约两个月"。一个简单的比较表明,PFP比DFT计算快2000万倍。这意味着,通过使用训练有素的机器学习模型(PFP),可以大大降低计算成本,而不是通过DFT来计算数值。

然而,为了训练模型,我们必须使用主要由DFT计算获得的数据集。这就是应该尽可能有效地利用公共数据库的地方。

PFP的应用实例及其性能

-锂离子的扩散行为

下面是有PFP的系统的另外两个预测任务。

第一个例子是预测锂离子在锂离子电池所用材料中的扩散行为。

锂离子电池的重要特性之一是其充放电率。锂离子在所用材料中的扩散率越高,活化能(一种反应的能量障碍,能量障碍越低,反应越快)越低,充放电率越高。通常情况下,通过DFT计算来计算活化能需要计算反应前和反应后的中间状态,或过渡状态。

然后,需要一个更平滑和更可重复的潜力来精确地确定过渡态(鞍点)的结构和能量。当然,过渡状态远远不是物质的优化结构(最稳定的结构)或谐振动状态。

塔夫雷特结构的LiFeSO4F是锂离子电池的正极材料之一,表现出3.6V的高电压。传统的DFT计算表明,这种材料表现出一维的锂离子扩散行为。传统的DFT计算表明,该材料表现出一维的锂离子扩散行为,即只有一维的锂离子扩散才会导致低活化能。

在这项研究中,锂离子在LiFeSO4F中扩散的活化能是通过CI-NEB方法(一个与DFT计算有关的术语,所以省略了详细的解释)使用PFP确定的。

得到的锂离子在LiFeSO4F中的扩散路径显示在图3中。得到的活化能如表3所示。

LiFeSO4F_20211225

图3通过PFP得到的锂在LiFeSO4F中的扩散路径,绿色圆圈为初始位置,红色圆圈为扩散后的位置,紫色和蓝色圆圈为来自绿圈的。紫色和蓝色的圆圈显示了与绿色圆圈不同方向的扩散路径。(白圈:O,黑圈:F,深灰圈:Fe,浅灰圈:S)

表3通过PFP获得的活化能在三个方向上计算的LiFeSO4F的锂扩散的活化能。

LiFeSO4F_activation_20211225

结果表明,PFP只很好地再现了一维方向的扩散行为,这是由传统的DFT计算得到的。

令人惊讶的是,尽管事先没有给出过渡态或反应机理的信息,但PFP准确地计算出了远离优化结构的过渡态的能量。顺便说一下,PFP在单个GPU上进行这一计算只花了5分钟。

-探讨费托反应的催化材料

下面的例子显示了为一个名为费托反应的反应寻找催化材料。

这是一个工业催化反应,从氢气(H2)和一氧化碳(CO)气体中合成一系列碳氢化合物(CxHy),也可作为燃料使用。它由复杂的基本过程组成。

从本质上讲,钴(Co)的纳米颗粒被加载到一种被称为支持物的材料表面上,该支持物作为催化剂促进反应。在这个例子中,我们对甲烷化和一氧化碳(CO)解离反应特别感兴趣,它们是这个反应中重要的基本过程。

图4显示了由PFP得到的甲烷化反应的活化能值与传统DFT计算之间的相关性。一些不同的活化能的存在可以归因于一个事实,即在不同的基本过程和反应条件下进行了一些测试。结果显示相关系数为0.98,MAE为0.097 eV,表明我们已经成功地预测了高精确度的活化能。

activation_energy_Fischer

图4通过PFP和传统DFT计算得到的甲烷化反应的活化能值的相关性。

随后,我们又寻找能够促进钴表面CO解离过程的添加剂元素。

一氧化碳解离过程是费托反应中一个重要的基本过程,降低这一过程的活化能对于创造有效的催化材料具有重要意义。

然而,只用DFT计算对添加的元素进行详尽的搜索是不符合成本效益的,所以我们试图提高PFP的效率。筛选是通过用其他原子替换钴催化剂中的一些钴原子来进行的。活化能计算的结果显示在图5中。

Co_catalyst_20211225

图5(a) 不同元素替代的Co催化剂上CO解离反应的激活能比较(归一化),(b) 含V的Co催化剂表面上CO解离反应的可视化(粉色:Co,灰色:V,红色:O,小灰:C)。

在测试了11种元素后,发现钒(V)将活化能降低了近40%。

虽然在以前的研究中知道钒是有效的,但PFP没有提供任何事先的信息。这意味着PFP已经成功地进行了高效和有效的筛查。除了上述两个例子外,还有其他例子可以说明PFP的有效性。如果你想了解更多,请参考原始论文。

开发商对未来的展望

这里介绍的PFP是第0版,目前仍有项目在进行开发。

数据集方面:扩展可处理的元素类型、参数和结构的范围

模型结构方面:试图在模型中引入电荷转移和原子间的长程相互作用

事实上,看看目前的Matlantis官方网站,适用元素的数量似乎更多。(目前支持55个元素)。 官方网站

摘要

在这篇文章中,我们介绍了用PFP寻找物质的情况,它具有多功能的潜力。

PFP是对前所未有的各种材料数据集的强大表示和描述,在独特的GNN结构上进行训练。

因此,我们得到了一个高度通用的模型(潜力),不需要为每个任务训练一个模型。传统上,在寻找未知物质方面很重要的推断任务一直很困难,而且有效的模型很少。然而,PFP在应用于此类推断任务方面有很大的潜力。我们期待着未来的工作。

而在未来,随着改进的PFP学习更多不同的数据集以提高其代表性,它可能会成为类似于材料专家机器的东西。这很令人兴奋。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们