機械学習で数千の科学論文からの情報を単一の図表で概説する

NIMSとシカゴのトヨタ技術研究所は、材料の構造や特性(材料設計に不可欠な要素)に関する情報を抽出し、それらの関係を整理して視覚化できるコンピュータ支援材料設計(CAMaD)システムを開発しました。このシステムを使えば、何千もの技術記事からの情報を単一の図表として抽出する事が可能になります。

論文 https://www.tandfonline.com/doi/full/  10.1080/14686996.2018.1500852

情報を図として抽出するシステム

NIMSとシカゴのトヨタ技術研究所は共同で、材料の構造や特性(材料設計に不可欠な要素)に関する情報を抽出し、それらの関係を整理して視覚化するコンピュータ支援材料設計(CAMaD)システムを開発しました。このシステムを使用することで、何千もの技術記事からの情報を単一の図表として抽出する事ができ、材料設計の合理化と迅速化が可能になるとのこと。

 

 

材料の性能は複数の特性で決まり、それらの特性は構造と、その構造を制御するプロセスと関連しているため、望む性能の材料を設計するためには、対象とする特性と関連する構造やプロセスの因子とその相関関係を理解することが不可欠です。

現在、研究が進んでいる情報科学のアプローチを物質・材料研究に利用するマテリアルズ・インフォマティクスでは、大量のデータがあれば、深層学習を利用して因子や相関関係を抽出することは可能です。しかし、実験による大量の材料データの取得・データベース化には多くの労力がかかるため、材料設計へのマテリアルズ・インフォマティクスの利用は困難でした。

そこで、本研究チームでは、材料データではなく、科学技術論文の文章データを自然言語処理によってコンピュータに読ませ、教師あり深層学習を適用することにより、材料設計に必要なプロセス・構造・特性に関する因子とその相関関係を抽出し、材料設計因子相関図を描画するアルゴリズムを開発したとのこと。

ユーザーが性能を規定するいくつかの特性を選ぶ、特性と関連する構造、構造を制御可能なプロセスに関する因子とその相関関係を関連性の強さとともに図として表現します。

例えば、鉄鋼材料に関して”強度”と”延性”を特性として選ぶことで、両特性の制御に有効であると知られている微細複合組織に関する構造・プロセス因子との相関関係が出力し、これらの関係を視覚化するためのチャートを生成するといった感じです。

 

特性に与える影響3つと、その相関関係を表現

論文 では、特性に与える影響を3段階で説明しています。

第1段階は、新しい材料を開発するために制御できる 「プロセス」 。

第2段階は、プロセスが構築する材料の 「構造」 。

第3段階は、構造が与える 「特性」 。

 

開発したAI は、教師データとして与えた上記3つ「プロセス」「材料組織」「特性」に分類した設計因子とその相関関係を基に、文章データから同様の文脈で使用されている設計因子とその相関関係を新たに抽出します。

これらの相関関係においては、科学技術論文中の個々の文脈から相関関係の強度を評価し、この強度を考慮した材料設計因子相関図を描画するアルゴリズムを開発したとのこと。

「図説」が一番伝わりやすい

人に最もわかりやすく説明する方法は、パネルやフリップなどで図を見せながら説明することです。複雑なものごとの説明は、パネルやフリップで行ったほうがわかりやすく「見せる」説明をすれば、圧倒的に短く伝わります。

今回の研究は、機械学習モデルを用いてテキストから図を抽出できることを示しました。

本研究で開発した自然言語処理と深層学習を組み合わせた因子とその相関関係を図で表現する技術は他分野にも応用可能であるとのことで、今後の関連研究も期待されます。例えば、プレゼンや会議で使うの資料作成など、知識や情報を図に翻訳してくれる変換器が実現するのもそう遠くはないかもしれません‥。