大規模言語モデルによる化学分野のパラダイムシフト、分類・回帰・逆反応設計への応用

Large language models 2024年06月06日

3つの要点
✔️ 化学分野の問題をテキスト形式で表現することにより、GPTの応用範囲をさらに拡大させる可能性を示唆
✔️ 少ないデータポイントでも従来の専門的機械学習モデルを上回る性能を発揮することを確認
✔️ 新しい化合物の発見や材料設計において、従来手法に比べて効率的な手法を提案

Leveraging Large Language Models for Predictive Chemistry
written by Kevin Maik Jablonka,Philippe Schwaller ,Andres Ortega-Guerrero ,Berend Smit
(Submitted on 17 Oct 2023)
Comments: Published on ChemRxiv.
Subjects: Theoretical and Computational Chemistry

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年の機械学習の発展において、特に注目されているのが大規模言語モデルです。そのシンプルさで多くの関心を集めており、与えられたフレーズに対して、機械によって書かれたとは思えないほど自然な続きのテキストを生成することができます。

科学論文の抄録作成や特定のプログラミングタスクのコード生成など、科学分野での実用例が目覚ましい成果を示しています。さらに、これらのモデルが明示的にトレーニングされていないにもかかわらず、シンプルな表形式の回帰や分類タスクを解決できることも明らかになっています。

これらの成果は、答えを持っていない科学的問いに対しても、解を見出す可能性を示唆しています。特に化学分野では、ほとんどの問題をテキスト形式で表現できるため、これらのモデルの応用が期待されます。「MOF（金属有機フレームワーク）の金属を変えると水中での安定性はどう変わるか？」といった実験や理論だけでは答えられない問いに対しても、新たな解答を提示できるかもしれません。

化学および材料科学分野では、常に限られた実験データを基に研究が進められています。その中で、Generative Pre-trained Transformer 3（GPT-3）のようなモデルが、少ないデータポイントでも意味のある結果をもたらすことが確認されています。この論文では、GPT-3が提供するデータに基づき、化学関連の複数の質問に対して、従来の専門的機械学習モデルを上回るパフォーマンスを示すことを明らかにしています。

また、インターネットから収集された広範囲のテキストコーパスに基づいてトレーニングされたこれらのモデルが、特定のタスクに微調整された場合のパフォーマンスに焦点を当てています。これにより、モデルはプロンプトの構造に依存せず、より柔軟な応用が可能になります。

様々なデータセットやアプリケーションでのベンチマークを通じて、これらのモデルが材料の特性分析、合成方法の提案、さらには材料設計まで、幅広い科学的質問に答えられることを実証しています。このアプローチにより、特に機械学習が既に取り組んできた問題に対しても、新たな視点からの解答を提供することが可能になります。

下図は、この論文で取り扱ったデータセットとタスクの概要を表しています。

この論文では、分子から材料、反応に至るまでの化学空間をカバーするデータセットでGPT-3をベンチマークしています。これらのデータセットでは、分類（例えば、分子、材料、または反応のテキスト表現が与えられた場合のクラス（「高」、「低」など）の予測）、回帰（浮動小数点数の予測）、逆設計（分子の予測）など、さまざまなタスクを調査しています。MOFのレンダリングはiRASPAで作成されています。

大規模言語モデルを用いた分類および回帰

この論文では、ハイエントロピー合金という、新しいクラスの構造金属に注目し、GPT-3モデルを使って、その潜在的な応用を探っています。ハイエントロピー合金は、その複雑さから無限に近い金属の組み合わせが可能であり、与えられた金属の組み合わせが固体溶液を形成するか、複数の相を形成するかを知ることが、実用的な観点から非常に重要です。

具体的に、「ハイエントロピー合金の組成の相は何か？」という問いに対し、我々のGPT-3モデルは単相または多相の可能な回答から選んで回答するように微調整されています。このプロセスにおいて、OpenAI APIを利用したモデルのチューニングは数分で完了し、「Sm0.75Y0.25」という具体的な入力に対して「1」という回答を出力しています。これは単相を意味し、微調整の過程で得られた顕著な結果の一例です。

このアプローチの選択は、特定の化学反応を模倣するために特別に開発された最先端の機械学習モデルと直接比較するために行なっています。興味深いことに、わずか約50のデータポイントで、1000以上のデータポイントを使用して訓練されたPeiらのモデルと同等のパフォーマンスを示しています。

また、これらの結果から、他の特性についても同様の結果が得られるのではないかと考え、分子、材料、化学反応の非常に異なる特性の範囲について調査しています。従来の機械学習手法が開発され、それぞれの分野でベンチマークとして受け入れられているアプリケーションに焦点を当てて検討を進めています。さらに、Matbench26スイートのベンチマークタスクでトップパフォーマンスを示したモデルとも比較しています。

微調整されたGPT-3モデルと既存のベースラインとの比較では、低データ領域での学習曲線が交差する点を特定し、従来のMLモデルと同等、あるいはそれ以上の性能を発揮するために必要なデータ量を測定しています。結果として、GPT-3モデルはしばしばより少ないデータで同等の成果を達成し、これは特にデータセットのサイズが限られている場合に顕著になっています。

また、この論文では、HOMO-LUMOギャップや水への溶解性から、有機光電変換素材としての性能に至るまで、分子の様々な特性を探究しています。材料においては、合金や金属有機フレームワーク、ポリマーの特性を深堀りし、反応に関しては、有機化学における重要なクロスカップリング反応を検討しています。

低データ領域ではGPT-3モデルが優れた性能を示す一方で、データ量が増えるにつれて従来の機械学習モデルも追いつく傾向にあります。これは、追加のデータや相関がGPT-3によってそれほど必要とされなくなる可能性があるためと考えられます。しかし、微調整のプロセスの最適化にはまだ取り組んでおらず、化学的文脈におけるより良いトークン化や学習パラメータの調整が、さらなる改善をもたらす可能性があります。

OpenAIのGPT-3やGPT-4のような大規模な言語モデルの進化に伴い、この実験のアプローチもそれに合わせて拡張されています。特に注目すべきは、微調整に限らず、例を直接プロンプトに組み込む「コンテキスト内学習」という手法によっても、良好なパフォーマンスを達成できている点です。この手法は、推論時に学習を行うことで、特に最新のGPTモデルで高い効果を発揮しています。

さらに、この研究はOpenAIのモデルに限定されることなく、オープンソースの大規模言語モデルに対しても、パラメータ効率の良い微調整技術を用いることで、消費者向けハードウェア上でも優れた結果を出すことができることを示しています。これにより、新たな問題に対してもこのアプローチを容易に適用できるPythonパッケージを提供することができます。

分子や材料の表現方法は、MLアプリケーションにおいて重要な課題の一つです。文献では主にIUPAC名が用いられていますが、SMILESやSELFIESのような一意の線形エンコーディングを用いる努力もなされてきました。自然言語で学習されたGPT-3モデルでは、これらの線形表現よりも化学名が好まれるかもしれません。この点について、分子の特性予測タスクで異なる表現方法の効果を調査しています。興味深いことに、表現方法にかかわらず良好な結果を得ることができることが明らかになっています。特に、分子のIUPAC名を使用した場合に最良のパフォーマンスをしばしば得ることができ、これは特定のアプリケーションにGPT-3を微調整するプロセスを、非専門家にとっても比較的簡単にしています。

分類問題に次ぐ、より高度な挑戦として回帰モデルの開発があります。これは、多孔質材料におけるガス吸着のヘンリー係数のような、連続的な特性を予測する能力を意味します。事前に学習された言語モデルを使用しているため、実数値の直接的な予測は、モデル構造や学習手法を変更しない限り、実現が難しいです。しかし、実際の応用では予測の精度には常に限界があります。例えば、材料のヘンリー係数では、多くの場合、1%の精度（または特定の小数点以下の桁数）で充分と言えます。

この制約を踏まえ、この精度に丸められたヘンリー係数を持つ分子を学習セットとして用い、GPT-3モデルがこれらの数値を内挿できるという仮定のもとに進めています。この回帰タスクを分類問題に変える方法として、微小なビンを作成することも考えられます。このより挑戦的な回帰タスクには、GPT-3モデルをチューニングするためにより多くのデータが必要ですが、このアプローチにははるかに多くのデータが必要であるため、利点は少なくなりますが、最先端に迫るパフォーマンスを得ることができます。

さらに、化学における機械学習の挑戦的なタスクには、特定の特性を持つ分子を生成できるモデルの開発、つまり「逆設計」があります。これには主に二つのアプローチが存在します。一つは、大規模なデータセットが利用可能な場合に、変分オートエンコーダーや生成敵対ネットワークのような生成モデルをトレーニングする方法です。もう一つは、データセットが限られている状況で遺伝的アルゴリズムなどの進化的技術を利用して、新しい可能性を秘めた分子を生み出す方法です。

特に注目すべきは、GPT-3のような先進的な言語モデルを活用した逆設計の試みです。これらのモデルは少ないデータからでも分子や材料の特性を予測できるため、研究の初期段階で新たな材料の提案を行うことが可能です。これは、実験データが少なく理解が限られている場合に特に有効です。

分子フォトスイッチの例を通じて、GPT-3がどのように特定の問いに対して正確な回答を生成できるかを示しています。また、逆設計プロセスは質問と回答を逆転させることでシンプルに実行でき、生成された分子は実際の化学反応の条件を満たすものであることが確認されています。

生成された分子の新規性を定量化することも重要なステップです。この論文では、生成された分子が既知のデータベースに含まれていない新しい構造をどれだけ含んでいるかを評価しています。これにより、GPT-3が真に新しい化合物を提案できる能力を確認しています。さらに、生成プロセスにおけるソフトマックス温度の調整は、より自然で、かつ化学的に意味のある分子のテキスト生成を可能にします。このパラメータの微調整により、多様で新しい、しかし化学的には無効な構造が生成されるリスクを管理することができます。

この論文では、逆設計が化学研究における新たな可能性を開くことを示しています。特に、自然言語モデルの微調整が従来の機械学習モデルの学習よりもアクセスしやすいため、このアプローチは化学分野におけるイノベーションを加速させる可能性を秘めています。

まとめ

この論文が示すとおり、化学分野の様々な問題に対して、GPT-3を基盤とした機械学習システムが驚くほどの成果を上げています。特に、SMILESのような従来の線表現が使えない化合物に対しても、このシステムは優れた結果を示しています。これは、GPT-3がテキストから相関関係を抽出する能力に優れ、化学の事前学習なしに、専門的な機械学習モデルを上回る可能性を秘めていることを示唆しています。

この技術の応用範囲は広く、自然言語でフォーミュレートされた質問に基づいて学習と利用が可能です。このアプローチは、将来の機械学習研究の新たな基準を設定し、新しいモデルがこのシンプルな手法を上回ることを目指すべきであることを示しています。

GPT-3の使用は、研究設定における文献検索に似ており、化学者がこれまでに蓄積した知識を活用するための新たな道を開きます。GPT-3はテキストフラグメントからの相関関係の発見に特化して設計されており、その相関関係が化学に極めて関連していることから、化学者や材料科学者に新たな可能性を提供します。

また、この論文では、次のステップとして、GPT-3を用いてこれらの相関をさらに特定し、深い理解を目指すとしています。GPT-3は、科学者が長年にわたって蓄積してきた知識をより効果的に利用するためのツールです。学習データに含まれていない多くの科学的成果や実験データを追加することで、さらに印象的な成果が期待できます。この先進的なアプローチは、化学研究の未来に革新的な影響を与える可能性を秘めています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。