MatSci-LLMの可能性と課題、材料科学における大規模言語モデルの活用に向けた挑戦

Large language models 2024年10月29日

3つの要点
✔️ 大規模言語モデルは自然言語処理だけでなく、コンピュータビジョンやヘルスケア、法務、金融など多くの分野を変革
✔️ 材料科学では新材料の発見や分析を加速するが、数値問題やコード生成などで限界があり、さらなるドメイン固有の学習が必要
✔️ MatSci-LLMは知識ベースの自動生成や材料設計のエンドツーエンド自動化を実現し、科学的発見を促進するが、関係分野の更なる発展と研究が必要

Are LLMs Ready for Real-World Materials Discovery?
written by Santiago Miret, N M Anoop Krishnan
(Submitted on 7 Feb 2024)
Comments: Published on arxiv.
Subjects: Materials Science (cond-mat.mtrl-sci); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデルの登場によって、技術開発や研究の進め方を根底から変わりつつあります。大規模言語モデルは自然言語処理の分野に大きな影響を与えるだけでなく、テキストから画像を生成するコンピュータビジョン（Zhang et al., 2023）など、多くの関連分野にも多大な影響を与えています。その結果、大規模言語モデルの能力をさまざまな業界に統合しようとする取り組みが加速しています。

具体例として、ヘルスケアのタスク自動化（He et al., 2023）、法務（Dahl et al., 2024）、金融（Wu et al., 2023a）、ソフトウェア工学（Fan et al., 2023）などが挙げられます。

その中でも特に注目すべきは、材料科学への大規模言語モデルの応用です。これにより、新しい材料の発見、合成、分析が加速され、それによって、気候変動やエネルギー安全保障、持続可能な農業や製造、個別化された医療機器、そしてより強力な計算システムへのアクセスなど、現代の複雑な社会問題に対応するため大きな可能性が広がります。

最近の研究では、化学（Jablonka et al., 2023）や生物学の多様な領域（Lin et al., 2023; Hsu et al., 2022; Xu et al., 2023; Cui et al., 2023; Dalla-Torre et al., 2023）で大規模言語モデルの導入が増えていますが、材料科学における応用は依然として遅れています。

この論文では、材料科学における大規模言語モデルの現在の課題を分析し、材料科学向けの大規模言語モデル（MatSci-LLM）の要件を整理、提案しています。また、材料科学分野の発展に向けたMatSci-LLMの具体的な応用方法を示すロードマップも提供しています。

材料科学における大規模言語モデルの失敗事例

この論文では、材料科学における大規模言語モデルの応用に関する大きな可能性を示しています。しかし、実際の応用に向けては、その限界を理解することも重要です。この論文では、質問応答、コード作成、固有表現抽出、要約分類、材料文献の構成抽出などのタスクにおける大規模言語モデルの失敗事例を紹介し、堅牢なMatSci-LLMを開発する必要性を示しています。

高性能な大規模言語モデルとして有名なGPT-4やLLaMA-2は、大量の公開テキストデータに基づいて学習されています。そのため、ウィキペディアや他の公的情報源から材料科学に関する一定の知識を持っていると考えられます。

そこで、Zakiら（2024）は、学部レベルの知識を必要とする650の質問からなるデータセットを作成し、これを用いて大規模言語モデルの材料科学分野の知識を評価しています。

その結果、GPT-4はChain-of-Thought (CoT) 推論を用いることで62%の正答率を達成しましたが、数値タイプの質問では39%と低い性能を示すことがわかりました。これは、現在の大規模言語モデルが適切な数値を代入し、文脈を固め、元の質問を解くことが苦手であることを示しています。

さらに、同じ試験で人間の成績と比較すると、GPT-4 CoTは他のベースラインよりも優れていましたが、トップパフォーマーの人間と比べると、50%程度しか達成できておらず、試験合格の基準を超えることができないこともわかりました。

また、大規模言語モデルの得意とされるタスクの一つにコード生成がありますが、材料科学関連のコード生成タスクにおいては、GPT-4の正確性は71%に留まることもわかりました。Zakiら（2024）は、低い性能を示した質問やコード作成タスクを詳細に分析し、大規模言語モデルは複雑な数値問題を解くのが苦手であり、数値の代入の誤り、単位変換の誤り、単位変換時の定数の欠如が原因であること、さらに、大規模言語モデルは3D構造に関連する情報を理解するのが苦手であり、特に、結晶構造や材料に関連する対称性が誤解され、不正確な結論に至ることを明らかにしました。

現在の大規模言語モデルは材料科学分野での実際の応用に向けてさらなる改良が必要であることがわかります。より多くのドメイン固有情報に基づいて学習し、推論能力を高めることで、大規模言語モデルは実用的なツールとなる可能性があります。

材料科学におけるドメイン固有言語に基づく大規模言語モデル基盤

材料科学の分野は物理学、化学、生物学など、さまざまな工学分野と密接に関連しているため、技術的な深さと広がりが求められます。このため、材料科学に特有の課題を乗り越えるためには、ドメイン固有の言語モデルが不可欠です。この論文では、材料科学におけるドメイン固有言語モデルの重要性についても言及しています。

化学ではIUPAC命名法（Hellwich et al., 2020）のようなドメイン固有の表記法が存在していますが、材料科学には標準的な表記法がありません。例えば、NaAlSi2O8、Na2O.Al2O3.2SiO2、SiO2–0.5Na2O–0.5Al2O3はすべて同じ材料を異なる文脈で表現しています。さらに、Na2CO3やCaCO3を示す「ソーダ」や「ライム」など、ドメイン固有の名称が使用されることもあります。セメント化学ではC-S-Hがカルシウムシリケート水和物を意味しますが、標準的な化学表記では炭素、硫黄、水素を指します。このように、材料科学の表記は多岐にわたり、大規模言語モデルが適切な文脈で理解するためには、特定のドメインに基づいた学習が必要になります。

また、研究論文では、特定の情報が省略されることがあります。例えば、「破壊シミュレーションはGriffithらに記載された方法を用いて実施された」というように、過去の研究を参照する形で情報が提供されます。材料科学の文献では、実験やシミュレーションのプロトコル、材料の組成、合成条件などが他の論文に基づいて記述されることが一般的です。このため、大規模言語モデルは複数の情報源から情報を収集し、適切に文脈を解釈して説明する能力が求められます。

材料科学では、テキストを用いて3Dまたは2D構造を表現することが一般的です。結晶構造はWyckoff位置（Aroyo et al., 2006）を使って表現されますが、結晶学では4mmが結晶構造を示す一方で、一般文献では距離の単位として用いられることもあります。また、結晶はCIF（結晶情報ファイル）形式で表現され、詳細な結晶データが含まれます。しかし、現在の大規模言語モデルはCIFファイルを読み取り、解釈し、生成することができません。これは新材料の発見において大きな制約となっています。

さらに、材料に関する情報は、テキスト、表、図、ビデオなど複数のモダリティで表現されます。特に表形式の情報抽出は進展していますが（Gupta et al., 2023; Zhao et al., 2023）、抽出されたデータを基に大規模言語モデルに知識を注入する方法には課題が残ります。材料のプロパティは多くの場合、科学的な単位で記述され、表とテキストを結びつけて正確な情報を得る必要があります。

また、材料の特性はラマン分析、X線回折（XRD）、走査電子顕微鏡写真などの実験結果として図で表現されます。例えば、「図XY（a）のXRDパターンは試料がアモルファスであることを示しています」という記述を解釈するためには、テキストと図を一緒に理解する必要があります。大規模言語モデルがこれらの情報を適切に学習するためには、多数の画像とそれに対応するテキストが必要です。

他にも、材料科学の情報はテキスト、図、表、ビデオなどを組み合わせて提示されることがあり、これらの情報を適切にリンクするためには、大規模言語モデルのさらなる学習が必要です。例えば、材料の破壊モード、結晶成長、熱応答などはビデオで示されることがあります。大規模言語モデルがこれらの情報を統合して解釈する能力は、今後の重要な課題と言えます。

材料科学における応用においては、これらの課題を克服することで、さらに有用なツールとなることが期待されます。

マルチモーダルな材料科学コーパスの構築

言語モデルの性能は、学習に使用されるデータセットの質に大きく依存します。そのため、データセットの作成は、コンピュータビジョン、グラフ学習、自然言語処理など、さまざまなディープラーニング分野での進展を促進するための重要な要素です。特に材料科学では、テキストのドメイン固有の変動が多く、マルチモーダルの言語モデルの発展に伴い、図、表、画像などの追加モダリティを組み合わせたデータセットの開発が求められています。これにより、科学情報を多様なモダリティで表現することで、より強力な言語モデリングが可能になります。

材料科学用の大規模言語モデルを学習するためのゴールドスタンダードデータは、主にElsevier、Royal Society、American Society、Springer Natureなどの権威ある編集社の査読付き出版物に含まれています。しかし、これらの出版物の多くは有料であり、公共のアクセスが制限されているため、貴重なテキストデータへのアクセスが困難です。そのため、GPT-4やLLaMaなどの汎用言語モデルがこれらのデータにアクセスできている可能性は低く、材料科学タスクでの低いパフォーマンスの一因となっています。さまざまなプレプリントサーバーやSemantic Scholarのようなポータルを通じて、科学的なテキストデータをオープンアクセスで利用可能にする動きもありますが、こうしたソースから得られたデータは、クリーニングなどが必要です。

有名なジャーナルの多くは、有料のサブスクリプションに基づくテキストおよびデータマイニングAPIを提供していますが、機械可読形式は21世紀に出版された原稿に限られます。20世紀以前の出版物の多くはPDFやスキャンファイルとしてのみ利用可能で、機械可読性が低くなります。そのため、20世紀以前の科学的データは大規模言語モデルの学習にはほとんど利用できません。さらに、多くの査読付きジャーナルはテキストおよびデータマイニングを許可しておらず、そのためのフレームワークもありません。プレプリントサーバーから得たデータも、学習に適用するためには大規模なクリーニングが必要です。

データが複数のソースやモダリティ（テーブル、テキスト、画像、ビデオ、コードなど）から取得される場合、それぞれのモダリティに適した説明が必要です。例えば、シリコンのCIF文書には、そのファイルに含まれる情報の詳細な説明が必要であり、大規模言語モデルがCIFの形式を理解するだけでなく、その情報の解釈方法も学習できるようにします。しかし、このような大規模な注釈は現在利用できず、信頼性を持たせるためには専門家の入力が必要です。

複数のエンティティに関するデータを適切にリンクし、関連するコンテキストで一緒に読むことができるようにすることは容易ではありません。例えば、原稿の図や表の説明が複数の段落にまたがり、補足資料に広がることがあります。これにより、標準的な機械学習のアプローチとは異なり、データセットとコンテキストを尊重する学習スキームを開発することが求められます。

査読付き出版物に基づくデータセットの作成におけるもう一つの課題は、外部参照の使用です。原稿では、現在の研究を支持するために複数の文書への参照が行われます。このため、学習データは外部参照を適切に考慮し、幻覚を減らし、よく推論された仮説を提供する必要があります。多くの大規模言語モデルは参照を求められると幻覚を起こし、科学的な原稿を生成する際には架空の参照を生成することがあります。これにより、学習データに外部参照を適切に組み込む必要性が示されています。

これらの課題に対処するためには、出版社、政府、産業界、学界の密接な協力が必要です。また、MatSci-LLMのための新しい機械学習ソリューションも必要です。例えば、スキャンされた文書を元の形式を尊重してテキストに変換するコンピュータビジョン技術や、外部参照やマルチモーダルデータを処理する新しい手法が求められます。このようなソリューションは、材料科学の分野を超えて、歴史、法律、金融などの古い歴史的文書のデジタル化にも影響を与える可能性があります。

MatSci-LLMの応用に向けたロードマップ

材料設計のエンドツーエンド自動化において、MatSci-LLMの応用は非常にエキサイティングな機会を提供します。自動化された材料設計は、材料科学の複雑な問題の理解を加速させることができます。下図は、MatSci-LLMを中心に据えたエンドツーエンドの材料発見フレームワークの概要を示しています。

MatSci-LLMには以下の3つの画期的な機能を実現する可能性があります。1つ目は、自動化された知識ベース生成により材料科学の知識を増強し、人間の理解を向上させる機能です。2つ目は、AIを活用した材料生成と高精度なシミュレーションによる自動化されたイン・シリコによる材料設計の機能です。そして、3つ目は、実世界での材料合成と特性評価のための自動運転ラボを実現する機能です。

最近の研究では、大規模言語モデルを使用してドメイン固有の知識を構造化された形で外部化し、科学的知識の利用可能性を広げることが可能です。例えば、Coxらは15,000以上のタンパク質コーディングデータベースに注釈を生成し、Buehlerは大規模言語モデルの知識を構造化された知識グラフとして外部化しました。これにより、科学者は知識を利用して理解を深め、必要に応じて修正や調整を行うことができます。このような知識ベースは、材料科学や技術の多様な分野での工学応用において貴重なリソースとなります。

また、MatSci-LLMは、人間と機械のインターフェースを提供する能力において大きな可能性を秘めています。自然言語の使いやすさと、大規模言語モデルのテキスト理解・生成能力を活用することで、複雑な科学プロセスの合理化が期待されます。例えば、コード生成を用いて新材料の発見やシミュレーションワークフローの実行を支援します。Buehlerの研究では、大規模言語モデルがSMILES表記で新しい分子化合物を生成し、関連する計算を実行するエージェントに問い合わせることで、ポリマー材料のエンドツーエンド設計を示しました。これにより、MatSci-LLMは新材料の生成モデルとしても機能し、現在の技術を補完しつつ、新しい材料ソリューションを提案することができます。

また、シミュレートされた材料を現実に持ち込み、実験結果とシミュレーション結果を一致させることは、エンドツーエンドの材料設計の究極の目標です。MatSci-LLMは、実験の設計と実行の加速において強力なツールとなります。最近の研究では、人間と機械のインターフェースを活用して複雑な材料システムの発見と合成が進んでいます。また、自動化された自動運転による材料ラボも開発されています。これにより、MatSci-LLMは実験の実行に関わるさまざまな機械間の連携を促進し、材料開発プロセスをさらに加速させることができます。

さらに、MatSci-LLMは人間の科学者に対しても自然言語を用いて設計要件を定義できるインターフェースを提供します。これにより、ツールが強化された大規模言語モデルによって実験ワークフローが実行されます。下図（再掲）に示されているように、MatSci-LLMが実験ワークフローを実行する能力は、材料発見サイクルを完全に自動化し、希望の材料を現実世界に生み出すことができます。

まとめ

上述の図に示されているような循環は、エンドツーエンドの自動化を通じて、新しい物理的および化学的関係を発見し、人間の知識で補強することで、幅広い材料に対して影響力のある科学的発見をもたらす可能性を秘めています。

しかし、この論文で述べた材料科学における大規模言語モデルの活用には独自の課題があり、MatSci-LLMを効果的な科学アシスタントとして活用するためには、さらなる研究が必要と考えられます。有用な研究の進展には、機械学習、材料シミュレーション、材料合成、材料特性評価、ロボティクスなど、多くの分野のインターフェースにおける進展も不可欠と言えます。今後の進展が楽しみな分野です。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。