ハッカソンの成功に見る、化学・材料科学における大規模言語モデルの応用と展望

Large language models 2024年04月01日

3つの要点
✔️ 大規模言語モデルの可能性の実証：ハッカソンによって数時間で複雑なプロトタイプを実現し、大規模言語モデルの化学・材料科学の分野の研究への応用可能性を提示。
✔️ 化学・材料科学分野における新たなモデリング手法：大規模言語モデルを使って化学・材料科学の分野でコンテキスト情報を取り入れ、非構造化データを扱う新しい手法を提供。
✔️ 新しい課題と多様な専門家の協力の必要性：大規模言語モデルの透明性やアクセスの問題に対処し、安全な使用と次世代教育のために多様な専門家の協力が必要。

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon
written by Kevin Maik Jablonka, Qianxiang Ai, Alexander Al-Feghali, Shruti Badhwar, Joshua D. Bocarsly, Andres M Bran, Stefan Bringuier, L. Catherine Brinson, Kamal Choudhary, Defne Circi, Sam Cox, Wibe A. de Jong, Matthew L. Evans, Nicolas Gastellu, Jerome Genzling, María Victoria Gil, Ankur K. Gupta, Zhi Hong, Alishba Imran, Sabine Kruschwitz, Anne Labarre, Jakub Lála, Tao Liu, Steven Ma, Sauradeep Majumdar, Garrett W. Merz, Nicolas Moitessier, Elias Moubarak, Beatriz Mouriño, Brenden Pelkie, Michael Pieler, Mayk Caldas Ramos, Bojana Ranković, Samuel G. Rodriques, Jacob N. Sanders, Philippe Schwaller, Marcus Schwarting, Jiale Shi, Berend Smit, Ben E. Smith, Joren Van Herck, Christoph Völker, Logan Ward, Sean Warren, Benjamin Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Zia, Aristana Scourtas, KJ Schmidt, Ian Foster, Andrew D. White, Ben Blaiszik
(Submitted on 9 Jun 2023 (v1), last revised 14 Jul 2023 (this version, v4))
Subjects: Materials Science (cond-mat.mtrl-sci); Machine Learning (cs.LG); Chemical Physics (physics.chem-ph)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、機械学習と化学・材料科学の融合が目覚ましい進展を遂げています。シミュレーションの加速から、特定の化合物や特性の予測まで、機械学習は科学的探究の新たな可能性を開拓していると言えます。しかし、この進歩にもかかわらず、個別の課題に特化したモデル開発が主流であり、科学的探究の多様性と複雑さが、一般的なツールの開発を難しくしています。

特に、化学および材料科学の分野では、データの形式や実験手法の記述において、顕著な多様性と文脈依存性があります。このような状況であるため、機械学習モデルへのデータの統合や変換は困難を極め、科学者たちは異なるツール間を接続するために「接着用コード」を作成し、複雑なワークフローを実現するために奮闘しています。

この課題に対して、大規模言語モデルの可能性が注目されています。特に、GPT-4などの大規模言語モデルは従来のアプローチでは解決が難しい問題に取り組む新しい方法を提供します。これらのモデルは、非構造化テキストからの知識抽出や、自然言語を介したツール間のインターフェースの作成において、特に有効であることが示されています。

この論文では、大規模言語モデルの化学・材料科学への応用可能性を探るハッカソンイベントを通じて、この技術がもたらす可能性を探求した結果を報告しています。このハッカソンでは、下表のように、予測モデリング、自動化、新しいインターフェースの開発、知識抽出、教育といった多岐にわたるプロジェクトが提案され、実際に試作されました。

このようなハッカソンの取り組みは、大規模言語モデルが科学研究に革命をもたらす可能性を示唆しており、今後の研究における基礎的なツールとなる可能性を秘めています。この記事では、ハッカソンの成果の中から、いくつかを抜粋してご紹介します。

プロトタイプの紹介

1つ目は、大規模言語モデルを活用した遺伝的アルゴリズムです。遺伝的アルゴリズムは、より優れた構造を生み出すために、ビルディングブロックを交叉や突然変異させる進化的なアプローチを取ります。このアプローチの成果は、その基盤となる化学との相性に大きく依存します。McGill Universityの研究チームは、大規模言語モデルを遺伝的アルゴリズムに組み込むことで、このプロセスの効率を大幅に向上させる可能性があることを示唆しています。

まず、大規模言語モデルは、化学構造を表すSMILES文字列を理解し、効率的に再構築する能力を示しました。初期実験では、GPT-3.5が70％の成功率で分子を適切に分解しました（Fragment）。さらに、2つの分子を再結合させる際、大規模言語モデルはランダムな方法よりも化学的に合理的な構造を生み出すことが多いことが確認されました。有機化学者による評価では、大規模言語モデルによって生成された分子は全て化学的に合理的であると確認されました（Reproduce）。McGill Universityの研究チームは、大規模言語モデルに、特定の性能指標を基に新しい分子を提案するよう求めました。この初期段階での結果は、大規模言語モデルが化学的に合理的な改善を提案できることを示しています（Optimize）。

このプロトタイプは、大規模言語モデルが化学的な構造を生成し、既存の構造を改善するための強力なツールとなり得ることを示しています。しかし、この技術はまだ初期段階にあり、特にSMILESの正確な生成において課題が残っています。将来的には、化学専門の基盤モデルの開発により、これらの課題を克服できる可能性があります。McGill Universityの研究チームの成果は、大規模言語モデルを使った遺伝的アルゴリズムが、化学物質の設計と改良に革命をもたらす可能性を秘めていることを示しています。このアプローチは、従来の方法よりも効率的で、新しい化学的構造の発見に道を開くかもしれません。

2つ目は、MAPI-LLMです。電子構造計算の精度が非常に高いレベルに達し、「AnByCzという材料は安定しているか？」というような質問に答えることができるようになりました。実際、Materials Projectでは多くの成分の熱力学データが保存されており、与えられた材料の安定性について合理的な推定を得ることができます。また、材料がデータベースにない場合は、代わりにシミュレーションを行うこともできます。同様に、「CaCO3を生成する反応を教えて」というような質問に対しても、Materials Projectデータベースやインターネットには役立つ情報がたくさんあり、答えを見つけるのに役立ちます。

これらの質問に答えるために、最先端の計算ツールや既存のデータベースを使用できます。しかし、その使用には専門知識が必要です。既存のデータベースを使用するには、どのデータベースを使用するか、データベースにどのようにクエリをするか、化合物のどの表現を使用するか（例えば、国際化学識別子（InChI）、SMILESなど）を選択する必要があります。データがデータベースにない場合は、計算を実行する必要があり、これには技術的な詳細を深く理解することが必要です。大規模言語モデルを使用すると、このようなツールの使用を簡素化することができます。質問を入力することで、その質問を答えにつながるワークフローに変換するよう大規模言語モデルに促すことができます。

MAPI-LLMのチームは、このようなシステム（MAPI-LLM）の開発に向けた最初のステップを踏み出し、「AnByCzという材料は安定しているか？」のような質問に答えるために、テキストプロンプトをMaterials Project API（API）のクエリに変換する手順を作成しました。さらに、MAPI-LLMは「Fe2O3は磁性を持つか？」のような分類クエリや「Mg(Fe2O3)2のバンドギャップはいくつか？」のような回帰問題も扱うことができます。

大規模言語モデルを使用してワークフローを作成するため、MAPI-LLMはさらに複雑な質問も処理できます。例えば、「Mn23FeO32が金属ではない場合、そのバンドギャップはいくつか？」という質問は、まず材料が金属かどうかをチェックし、そうでない場合にそのバンドギャップを計算するという2ステップのワークフローを作成します。さらに、MAPI-LLMは、MAPI経由で材料のプロパティのデータが利用できない場合にICLを適用します。MAPI-LLMはICLプロンプトを生成し、Materials Projectデータベースで利用可能な類似材料のデータに基づいてコンテキストを構築します。このコンテキストは、未知の材料のプロパティを推測するために大規模言語モデルによって活用されます。このICLの革新的な使用は、データのギャップを埋め、MAPI-LLMの堅牢性と汎用性を高めます。

３つ目は、sMolTalkです。一般的に化学向けソフトは、操作方法などを学習するのにかなりの時間を要するという問題があります。この一例が可視化ソフトウェアです。化学者や材料科学者が特定の可視化ソフトウェアの詳細を学ぶのに数時間から数日を費やすこともあります。sMolTalkを開発したチームは、3dmol.jsのような可視化ツールのコードを書くために大規模言語モデルを使用してこの非効率性に対処することができます。下図はそのインターフェースです。ユーザー入力のいくつかの例と、3dmol.jsビューアを操作する予想されるJavaScriptコードを示す少数ショットのプロンプティングだけで、タンパク質データバンク（PDB）からタンパク質構造を取得し、特定の方法で構造の一部を色分けするなど、可視化ソリューションを作成するインターフェースのプロトタイプを作成することができます。

この例では、ユーザーは4つのコマンドのシーケンスを入力しています。大規模言語モデルは、(1)構造を取得するためのコードを生成し、(2)炭素を青く着色し、(3)水素を赤い球体として表示し、(4)球体のサイズを小さくしています。

言語モデルの美しさは、ユーザーが多様な（「あいまいな」）方法でプロンプトを書くことができることです。「color」または「colour」、または「light yellow」や「pale yellow」のような用語を書いても、大規模言語モデルはそれを可視化ソフトウェアが解釈できるものに変換します。

しかし、このアプリケーションは、これらの大規模言語モデルベースのツールのさらなる開発が必要であることも強調しています。例えば、sMolTalkツールが直面する課題の一つが堅牢性です。具体的には、ユーザーが入力したプロンプトから、予期しない断片や部分が生成された出力に含まれてしまう問題です。これは、モデルがプロンプトの一部を誤って解釈し、結果として関係のない情報を出力に含めてしまうことが原因で起こります。この問題に対処するためには、より複雑な方法を使う必要があります。例えば、「リトライ」は、モデルがエラーを出した場合に、エラーメッセージを読み取らせて何が間違っていたのかを理解し、問題を修正して再試行する方法です。これには、モデルが自身のエラーメッセージを理解し、それに基づいて次の行動を決定できるように、モデルにエラーメッセージへのアクセスを許可する必要があります。3dmol.jsのドキュメントなどの知識ベースを活用することで、さらなる改善が期待できます。

4つ目は、教育ツール「I-Digest」です。大規模言語モデルは、新しい教育の機会も提供することができます。I-Digestチームは、講義録画などのコース素材に基づいたデジタルチューターを提供することで、新しい教育機会に向けたツールを提案しています。Whisperモデルを使用して、講義の録画ビデオをテキストトランスクリプトに転写することができます。これらのトランスクリプトは、ビデオで提示された内容に関する質問を思いつくように指示するプロンプトと共に大規模言語モデルに供給することができます。将来的には、これらの質問がビデオが始まる前に学生に示され、すでに知っている部分をスキップすることができるようになるか、またはビデオの後で、不正解の場合には関連するタイムスタンプや追加資料を学生にレコメンドすることができるようになるかもしれません。

重要なことは、従来の教材とは対照的に、このアプローチは実質的に無限の数の質問を生成することができ、将来的には学生のフィードバックによって継続的に改善される可能性があるということです。さらに、このアプローチを講義ノートや書籍を考慮に入れて拡張し、学生をさらに導くか、特定の演習を推奨することも容易に想像できます。

まとめ

ハッカソン参加チームが短期間で複雑なタスクを実現するプロトタイプを発表できたことは、大規模言語モデルの可能性を表していると言えます。これらのプロトタイプは、わずか数時間で実現可能ですが、従来なら数ヶ月のプログラミング作業を必要するものです。ハッカソン参加チームは、低リスクの環境で実験することにより、これまでにないモチベーションと成果を達成しています。

大規模言語モデルの活用は、化学や材料科学を含む新しい分野でのモデリングを可能にします。これには、コンテキスト情報を取り入れたり、非構造化データを直接扱うことが含まれます。プログラミングやツール開発の不確実性を解消する手段として、CopilotやChatGPTのようなツールが登場しています。これらの進歩により、エンドユーザーがアプリケーションを簡単に作成・カスタマイズできる未来が開けています。

また、面白いことに、多くのツールのロジックはプログラミング言語ではなく英語で記述されています。これにより生成されるコードは、従来よりも短く、理解しやすく、依存性が少なくなります。これは、技術的な解決策を自然言語で記述することの有効性を示していますが、大規模言語モデルの解釈可能性の限界と堅牢性の欠如も認識する必要があります。

また、OpenAIのAPIを使用しているため、そのモデルの構築方法や信頼できるアクセスの保証については不透明です。OpenAIのAPIの使いやすいですが、このような公開されている大規模言語モデルのパフォーマンスは特に新しいタイプのアプリケーションで不安定になることがあります。そのため、分子科学や材料科学の利用には、分子科学や材料科学に特化した新しいベンチマークの開発が必要です。これにはコンテキストや非構造化データを扱う能力を評価するフレームワークが求められます。

さらに、この大規模言語モデルの可能性を探求するためには、化学者やコンピュータ科学者だけでなく、法律家など多様な専門家の協力が不可欠です。これらのツールの安全な使用、評価基準、堅牢な展開、そして次世代の科学者がこれらを効果的に活用できるようにするための教育も重要な課題です。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。