【Materials Informatics】汎用原子レベルシミュレータ「Matlantis™」

Materials Informatics 2022年01月12日

3つの要点
✔️ Preferred NetworksとENEOSの共同開発
✔️ 物質の現象を説明する化学や固体物理の複雑な理論を潜在的に学習
✔️ 対象タスクごとの学習が必要ない優れた汎用性を達成

PFP: Universal Neural Network Potential for Material Discovery
written by So Takamoto, Chikashi Shinagawa, Daisuke Motoki, Kosuke Nakago, Wenwen Li, Iori Kurata, Taku Watanabe, Yoshihiro Yayama, Hiroki Iriguchi, Yusuke Asano, Tasuku Onodera, Takafumi Ishii, Takao Kudo, Hideki Ono, Ryohto Sawada, Ryuichiro Ishitani, Marc Ong, Taiki Yamaguchi, Toshiki Kataoka, Akihide Hayashi, Takeshi Ibuka
(Submitted on 28 Jun 2021)
Comments: Published on arxiv.
Subjects: Materials Science (cond-mat.mtrl-sci); Computational Physics (physics.comp-ph)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

汎用原子レベルシミュレータ「Matlantis™」

Preferred NetworksとENEOSの共同開発によって誕生した「Matlantis™」。

このサービスでは、機械学習を用いた物質材料の性能予測やシミュレーション、物質探索などを行うことができるのですが、その汎用性の高さからマテリアルズ・インフォマティクスの分野で大きな注目を集めています。

今回はその「Matlantis™」に使用されている「PFP」というものを紹介したいと思います。本論文はPreferred NetworksとENEOSから投稿された論文です。

物質探索とNeural Network Potentials (NNPs)

この世には多様な元素が存在し、その組み合わせからなる物質の数は天文学的な数字になります。それらを扱うコンピュータシミュレーションとしては、DFT計算などの量子化学理論に基づいたシミュレーションが有効です。

しかし、DFT計算を網羅的な物質探索に活用するのは困難です。現時点でのDFT計算などのシミュレーションは計算コストが高いからです。また、複雑な構造になるほど計算時間が膨大に伸びていきます。

そこで、機械学習を用いた物質探索手法が注目されています。特に、ニューラルネットワークと膨大なデータセットを組み合わせたNeural Network Potentials (NNPs)が注目されています。

しかし、課題もあります。それは汎用性に欠ける点です。特定の物質群用のデータセットで作成されたモデルは他の物質群の予測には使用できないケースが多いです。また、未知構造の物質の性能を精度よく予測するのも極めて難易度が高いといえます。このように、NNPにも大きな課題がありましたが、NNPでは少ないデータセットやパラメータでも精度よく予測ができるという結果に触発され、本研究ではNNPを活用した汎用性モデルの構築を目指しました。

特に、本研究で用意したデータセットには以下のような特徴があります。

不安定な物質の構造でも、モデルのロバストネスと汎用性を高めるのに重要と思われるデータは積極的に収集。
その中には、既知の結晶構造や分子を構成する原子を不規則に入れ替えたものや、様々な元素が無秩序に存在する構造のもの、その温度や密度などの周辺環境を変えたものなども存在する。

最終的に本研究では、汎用NNPであるPFP(Pre-Ferred Potential)と呼ばれるモデルを開発しました。このPFPは周期表上の45元素の多様な組み合わせを扱うことが可能です。主に、物性などの予測のもとになるポテンシャルエネルギー表面を原子構造から求めることで予測を行います。

periodic_table_20211225

Figure 1 PFPで取り扱える元素 (青色が取り扱い可能元素)

モデル構築

ニューラルネットワークポテンシャル(NNPs)のNNには、原子構造の記述用にいくつかの特性がかけられます。

それが、物質構造の回転不変性(SO(N))、並進不変性(SE(N)、回転不変性を含む)、鏡像反転不変性(E(N)、回転不変性と並進不変性を含む)などです。また、原子構造の記述性能を高めるには、原子の位置座標などに関係する高次の特徴を失わないようにデザインする必要もあります。

例えば、Atomic Environment Vectors (AEV)やノードベースのMachine-Learning Potentials (MLPs)は、原子同士の位置関係を結合距離や角度で表現しています。

これらは上記の不変性を維持しながら、位置関係を十分に表現することができます。しかし、Graph Neural Networks (GNNs)のようなメッセージパス機構を持っていないため、位置情報を遠くに伝えるのが困難という欠点があります。そこでTable 1に示すように、既存の様々な手法は、GNN構造で高次の特徴を扱うように構築されています。

Table 1 MLPやGNNからなる既存モデル

GNN_based_method_20211225

これらの中でも、TeaNetはE(3)不変性を持ち、二次のテンソル量などの高次の特徴を扱えます。

そこで著者らは、TeaNetスタイルのテンソルベースの畳み込み層を持つGNN構造を、本研究で扱うモデルの中核に採用しました。本研究のNNPs構造はGNN構造ですが、局所的相互作用モデルであり、無限に遠く離れた原子と原子は相互作用しないように設定されています。この設定は計算コスト低減や汎用性向上につながります。

そして、DFT計算や分子動力学計算においては、計算の安定性が得られるエネルギー表面の滑らかさに寄与します。時には、高次の微分計算が必要になる場合もあります。

そのため本研究のモデルの構造は、エネルギーが原子の位置に関してより高次まで微分可能であるように設計されています。

データセット

Materials Project (MP)などの公開データセットには、DFT計算などで得た物質の「最適化構造」のデータが記載されています。しかし、物質探索のための汎用ポテンシャルを実現するためには、最適化構造のみでは不十分です。

なぜなら、化学反応や拡散現象、結晶相の変化などは、最適化構造からは程遠い状態で進行する場合が多いからです。そこで本研究では、最適化構造の他に、振動構造や無秩序構造などをデータとして採取し、汎用ポテンシャルを実現しました。データセットが今後どんどん拡大していくにつれて、この様々な条件でのデータを学習するメカニズムは効果を発揮していくと期待できます。

Table 2には、公開データセットの一覧と、本研究で構築したデータセット(一番下)のデータの種類を示しています。

Table 2 様々な公開データセットとその内容

dataset_MPetc_20211225

systemとしては、

molecule : 分子構造 (主に有機小分子)
bulk : 結晶構造(表面を考慮しないもの)
cluster : 原子の小さな集合体
slab : 表面構造
adsorp. : 表面への分子の吸着構造
disorder : 無秩序構造、非晶質構造 (結晶ではない)

があり、公開データセットはそれぞれその一部しか保有していないのに対して、本研究のデータセットは網羅的に保有していることが分かります。

various_structure_20211225

Figure 2 DFT計算に用いるセル中で表現されるそれぞれの構造のイメージ、(a) 分子構造、(b) 結晶構造、(c) 表面構造、(d) クラスター構造、(e) 表面への分子の吸着構造、(f) 無秩序構造

そして、structureとしては、

opt. : 最適化構造 (エネルギーが最も低い最安定構造)
vib. : 振動構造
MD : 分子動力学(MD)シミュレーションで得た変化に伴う構造

などがあり、本研究のデータセットはこれら様々な構造のデータを保有しています。元素としても45種類をカバーしています。

PFPの計算スピード

代表的なシミュレーション方法であるDFT計算とPFPの計算スピードを評価しました。驚くことに、PFPでは3000個の白金(Pt)原子の計算に、わずか0.3秒しかかかりません。

一方、DFT計算で同様の情報を得ようとすると、「約2か月」かかります。単純に比較すると、PFPはDFT計算よりも2000万倍計算スピードが早いといえます。ようするに、DFT計算によって値を算出する代わりに、学習済みの機械学習モデル(PFP)で値を算出すれば、計算コストが大幅に低減できるということです。

ただ、モデルを学習するには、主にDFT計算などによって得たデータセットを使用しなければなりません。そこは公開データベースなどを可能な限り有効活用するべきだと思われます。

PFPの活用例とその性能

-リチウムイオンの拡散挙動-

ここからは、PFPによるシステムの予測タスクを2つほど紹介します。

一つ目の例は、リチウムイオンバッテリーに使用される材料中のリチウムイオンの拡散挙動の予測です。

リチウムイオンバッテリーの重要な性質の一つとして、充電・放電速度があります。使用される材料中のリチウムイオンの拡散速度が高いほど、活性化エネルギー(反応のエネルギー障壁のようなもの、低いほど反応速度が向上)が低下し、充電・放電速度が向上します。通常、DFT計算による活性化エネルギーの計算には、反応前と反応後の中間、すなわち遷移状態の状態計算が必要になります。

そして、遷移状態(鞍点)の構造やエネルギーを精密に求めるには、より滑らかで再現性のあるポテンシャルが必要となります。当然、遷移状態は、物質の最適化構造(最安定構造)や調和振動状態からは程遠いです。

tavorite構造のLiFeSO₄Fは、リチウムイオンバッテリーのカソード材料の一つであり、3.6 Vの高電圧を示します。従来のDFT計算の結果では、この物質は一次元のリチウムイオン拡散挙動を示しました。つまり、一次元方向のリチウムイオン拡散のみ活性化エネルギーが低いという結果です。

本研究では、PFPを用い、CI-NEB法(DFT計算に関する用語なので詳細な説明は割愛)によって、LiFeSO₄Fのリチウムイオン拡散の活性化エネルギーを求めました。

得られたLiFeSO4F中のリチウムイオンの拡散パスをFigure 3に示します。得られた活性化エネルギーなどはTable 3に示します。

LiFeSO4F_20211225

Figure 3 PFPにより得られたLiFeSO₄F中のリチウムの拡散経路、緑丸が初期位置で赤丸が拡散後の位置、紫と青の丸は緑の丸からの別方向への拡散経路を示す。(白丸 : O、黒丸 : F、暗いグレーの丸 : Fe、明るいグレーの丸 : S)

Table 3 PFPにより得られたLiFeSO₄Fによるリチウムの拡散の活性化エネルギー、3つの方向で計算している。

LiFeSO4F_activation_20211225

結果、PFPは従来のDFT計算により得られる一次元方向のみの拡散挙動をよく再現できました。

しかも驚くことに、事前情報として遷移状態や反応機構の情報を与えていないにも関わらず、PFPは最適化構造から程遠い遷移状態のエネルギーを正確に算出しました。ちなみに、PFPはこの計算に、シングルGPUで5分しかかからなかったそうです。

-Fischer Tropsch反応の触媒材料探索-

次の例は、Fischer Tropsch反応と呼ばれる反応の触媒材料探索です。

この反応は、水素(H₂)ガスと一酸化炭素(CO)ガスから、燃料にもなる様々な炭化水素(C_xH_y)を合成する工業的な触媒反応です。複雑な素過程から構成されます。

基本的には、担体と呼ばれる物質の表面にコバルト(Co)のナノ粒子を担持し、これが反応を促進する触媒として機能します。今回の例では特に、この反応の重要な素過程であるメタン化反応と一酸化炭素(CO)の解離反応に注目しています。

Figure 4 に、PFPと従来のDFT計算によって得られたメタン化反応における活性化エネルギーの値の相関図を示します。異なる活性化エネルギーがいくつも存在するのは、異なる素過程や反応条件でいくつも試験を行ったためと考えられます。結果は、相関係数 : 0.98、MAE : 0.097 eVであり、高精度な予測に成功したといえます。

activation_energy_Fischer

Figure 4 PFPと従来のDFT計算によって得られたメタン化反応における活性化エネルギーの値の相関図

続いて、コバルト表面でのCO解離過程を促進する添加元素の探索を行いました。

CO解離過程はFischer Tropsch反応中の重要な素過程であり、この過程の活性化エネルギーを低減するのは有効な触媒材料を創製する上で重要であるといえます。

しかし、DFT計算のみで添加元素の網羅的探索を行うのはコスト上望ましくないため、PFPでの効率化を図りました。スクリーニングはコバルト触媒のコバルト原子を一部他の原子に置換することで行いました。活性化エネルギーの算出結果をFigure 5に示します。

Co_catalyst_20211225

Figure 5 (a) さまざまな元素で置換したCo触媒のCO解離反応の活性化エネルギー比較(規格化済)、(b) Vを含むCo触媒表面上でのCO解離反応の可視化イメージ (ピンク : Co、グレー : V、赤 : O、小さいグレー : C)

11個の元素を試した結果、バナジウム(V)が活性化エネルギーを40%近く低減させることが分かりました。

過去の研究でバナジウムが有効であることは知られていましたが、今回PFPにその事前情報は与えていません。つまり、PFPによって効率的かつ有効なスクリーニングに成功したといえます。今回示した上記2つの例の他にも、PFPの有効性を示す例が紹介されています。もっと知りたい方はぜひ原著論文を見ていただければ、と思います。

開発者の今後の展望

今回紹介したPFPはVersion 0であり、現在もPFPを発展させるプロジェクトが進行しています。

データセット側 : 元素の種類やパラメータ、取り扱える構造の適用範囲の拡大

モデル構造側 : 原子間の電荷移動や長距離相互作用のモデルへの導入の試み

実際、現在のMatlantisの公式サイトを見ると、適用可能元素の数はさらに多くなっているようです。(現在55元素に対応) 公式サイト

まとめ

今回は、汎用性ポテンシャルを持つPFPによる物質探索を紹介しました。

このPFPはいままでにない多様な物質のデータセットを、特有なGNN構造で学習することで、強力な表現力・記述力を発揮します。

その結果、タスクごとのモデルの学習が必要ない、汎用性に優れたモデル(ポテンシャル)を得ることができました。従来、未知の物質探索に重要な外挿タスクは難易度が高く、有効なモデルはあまりありませんでした。しかし、このPFPならば、そのような外挿タスクにも適用できる可能性がおおいにあります。今後に期待です。

そして今後、改良されたPFPでさらに多様なデータセットを学習して表現力を高めていくことで、物質材料のエキスパートマシンのような存在になるかもしれません。わくわくしますね。