赶上最新的AI论文

最后,现在有一个模型可以从一个模型(MegNet)中预测多个材料属性值

材料信息学

三个要点
✔️
通过使用新的全局状态量,只需少量的附加参数,就可以预测多种材料的特性
✔️ 在Pooling层中,考虑到晶体中原子的顺序,采用了一种名为Set2Set的池化方法
✔️ 使用原子嵌入可视化所有元素的相关性

Graph Networks as a Universal Machine Learning Framework for Molecules and Crystals
written by Chi ChenWeike YeYunxing ZuoChen ZhengShyue Ping Ong
(Submitted on 12 Dec 2018 (v1), last revised 28 Feb 2019 (this version, v2))

Comments: Chemistry of Materials 2019
Subjects: Materials Science (cond-mat.mtrl-sci); Computational Physics (physics.comp-ph)

Code

介绍

材料化学中的机器学习

多年来,新材料的开发研究一直很活跃。其中最著名的有催化剂、电池、药物发现等,这些都在为可持续发展的社会和工业的发展做出贡献。

在其材料化学中,发现新材料的候选材料有几百万到几千万种,都要根据治理方程进行数值分析。然而,以目前的计算资源很难做到这一点。因此,使用机器学习的虚拟筛选实际上是用来缩小候选材料范围的方法。

然而,确定晶体和分子物理性质的物理模型(治理方程)有三个基本限制(对称性)。

第一:平移不变性

第二:旋转不变性

第三:即使更换相同的原子,得到的物理性质也不会改变。

除了晶体中的这些之外,还包括

第四:晶体晶格具有周期性(比如想象一下像NaCl这样的面心立方晶格在X、Y、Z方向上永远走下去,就很容易理解了)。

第五:目标晶体的空间群的对称性(晶体晶格可以分为230个不同的空间群,每个空间群都有自己独特的对称性)。

满足这些条件的图神经网络将被用作机器学习方法,这是一个自然的发展。

然而,目前的模式存在三个挑战。

  • 许多模型(除了一些GNN模型如SchNet)分别预测晶体和分子的特性,通用性不强 
  • 在模型中没有包括代表整个系统特性的状态量(本文中称为全局状态),而这些状态量是预测晶体性质所必需的。(如要获得晶体在一定自由度下的特性,需要温度信息,但传统模型即使是单一特性,也需要每个温度的模型)。
  • 一些楼盘价值最大的瓶颈是数据量小,对此没有有效的解决方案。(数据的多少直接影响性能。)

作为所有这些问题的解决方案,本文提出了一种名为MatErial Graph Network(MEGNet)的GNN模型。

建议方法

在传统的图神经网络中,特征被分配给节点V(节点和顶点)和边缘E(分支和边缘),在GNN的Conv层更新每个特征(V,E)来进行训练。(V和E分别是Vertices和Edge的缩写。 )

在本文中,除了V和E的特征外,我们还设置了一个新的全局状态U,它代表了所研究的整个系统的特征。我们还利用节点v和边缘e的特征更新u。更新顺序为边缘E、节点V、全局状态U。

update_order

更新边缘、节点和全局状态的顺序,这在消息传递神经网络(MPNN)中就已经做到了,而且全局状态应该根据更新后的边缘和节点进行更新,这是很有意义的。我觉得这是一件好事。

下一节将介绍该模型的全部内容。

所提出的模型MEGNet与一般GNN一样,由一个多层Conv层、一个Pooling层和一个多层全耦合层组成。输入是三个特征:边缘特征、节点特征和全局状态,输出是一个单一的属性值。

节点和边缘特征并不是完全相同的变换,而是用残差连接(ResNet中提出的)进行训练,以避免水晶图卷积神经网络(CGCNN)的梯度损失。它的使用,是材料开发中常用的方法。

在MEGNet层之前使用全绑定层是传统GNN模型的一个小变化。

接下来,我们将讨论Conv层(MEGNet Block)和Pooling层(Set2Set)的细节。

如何更新Edge E

如何更新节点V

如何更新全局状态U

但是,特征更新函数φ都是相同的,如下。

激活函数是SchNet中使用的一个名为Shifted Softplus的函数。

对于池化函数,GNNs中常用Sum Pooling,但顺序信息会丢失;在MEGNet中,我们用Set2Set面对这个挑战,它使用LSTM和Attention。

特征分配

节点、边缘和你需要给每个全局状态分配一个向量。

根据以往的研究,我们为每一个分子和晶体特征分配了以下属性。

我们展示了如何使用全局状态量在一个模型中学习这四个属性。

它的四个物理性质分别是0K时的内能U0、298K时的内能U、焓H、吉布斯自由能G。焓H和吉布斯自由能G的定义分别是U+PV和U+PV-TS。为了预测多种属性,我们将全局的状态量定义为三种属性(T,P,S)。那么,0 K时的内能U0、298 K时的内能U、焓H、吉布斯G的自由能可以分别表示为(0,0,0)、(298,0,0)、(298,1,0)和(298,1,1)。但在这里,P和S这两个项目和三个项目分别只包含是否包含的信息。此外,还可以对一种材料使用四种属性数据,并期望提高性能。

结果

与传统的SOTA SchNet相比,我们在qm9(分子)数据集中的表现优于SchNet 11/13。

它们在晶体中的表现也明显优于之前的模型。但需要注意的是,CGCNN是截至2017年的数据集,MEGNet是截至2018年6月的数据集,并不完全相同。在这方面,笔者指出,MEGNet明显优于CGCNN,因为它包含了更多复杂的数据,而且仍然提高了准确性。

作者提到了GNNs的优越性,称其表现优于没有使用GNNs的基于描述符的模型(AFLOW-ML模型、JARVIS-ML模型)。

模式的解释

下面是利用能量形成数据集得到的原子嵌入中提取的皮尔逊相关系数图。不仅抓住了碱金属、碱土金属、卤素、镧系金属等特征,而且从相关系数中我们还可以看到,铕、镱等镧系金属虽然是镧系金属,但表现出与碱土金属相似的性质。

作者最后指出:"对于弹性模量的少量数据(约6500),形成能量的原子嵌入过渡证实了性能的充分改善。这就是本文的内容。

小结

本文介绍了一种基于GNN的分子和晶体的属性值预测模型。状态的全局量作为一个想法很有趣,而嵌入原子的可视化结果是一个意想不到的来源。让我们继续阅读有关属性预测的内容,推动了新材料的研究发展,有助于解决全球变暖和能源问题。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们