最新AI論文をキャッチアップ

大規模言語モデルは化学分野で何ができるのか?化学研究におけるLLMの役割と可能性

大規模言語モデルは化学分野で何ができるのか?化学研究におけるLLMの役割と可能性

Large language models

3つの要点
✔️ 化学分野への大規模言語モデルの応用の探求:化学という特定の分野で大規模言語モデルの適用可能性とその潜在能力を調査。化学の実用的なタスクに対する大規模言語モデルの応用を広範囲にわたって評価する初のベンチマークを開発。
✔️ 大規模言語モデルの性能評価:化学の基本的な問題に対処するための8つのタスクを用いて、5つのモデル(GPT-4、GPT-3.5、Davinci-003、LLama、Galactica)の性能を評価。生成タスクと分類・ランキングタスクでのモデルの性能差を浮き彫りにし、特定条件下で競争力を示すタスクも明らかに。

✔️ 化学分野における大規模言語モデルの潜在能力と改善の必要性:化学分野における大規模言語モデルの可能性を示しつつ、その性能をさらに向上させるためには改善が必要であることを示唆。

What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks
written by Taicheng GuoKehan GuoBozhao NanZhenwen LiangZhichun GuoNitesh V. ChawlaOlaf WiestXiangliang Zhang
(Submitted on 27 May 2023 (v1), last revised 28 Dec 2023 (this version, v3))
Comments: NeurIPS 2023 Datasets and Benchmarks Track camera-ready version
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

近年、大規模言語モデルが様々な分野でその驚異的な能力を発揮していることが注目されています。自然言語処理から始まり、科学領域の多岐にわたるアプリケーションへとその影響を広げています。特に、医療や科学的な質問応答といった分野での研究が進んでいますが、化学という分野におけるその応用については、まだ十分に探求されていません。AI研究者と化学者の両方にとって「大規模言語モデルは化学分野で何ができるのか?(What can Large Language Models do in chemistry?)」は魅力的な問いです。しかしながら、化学における大規模言語モデルの可能性は、この分野の進化に大きな影響を与える可能性を秘めていますが、未だ多くの課題を含んでいます。

この論文では、化学における大規模言語モデルの潜在能力を明らかにし、その進歩を促進するために、化学の実用的なタスクを広範囲にわたって評価する初の包括的なベンチマークを開発しました。この取り組みは、AI研究者と化学者のコラボレーションから生まれ、化学の多様な課題に対する大規模言語モデルの適用可能性を探ることを目的としています。この研究は、化学タスクの理解、推論、ドメイン固有の知識の使用など、異なる能力を要求する8つの実践的なタスクを含んでいます。これらのタスクは、名前予測、物性予測、収率予測、反応予測など、化学の基本的な問題に取り組みます。

この論文では、大規模言語モデルが化学の多様な問題にどのように応用できるかを示すとともに、AI研究者には大規模言語モデルの強みと限界についての洞察を、化学者には現在の大規模言語モデルがどのタスクに適しているかについての理解を提供しています。また、実験フレームワークの構築を通じて、信頼性のある評価と標準化された手法の重要性を強調しています。この研究により、化学における大規模言語モデルのさらなる活用に向けた道筋が示され、この分野の研究開発活動が加速されることが期待されます。

評価プロセスと設定

この論文では、ノートルダム大学化学部のオラフ・ヴィースト教授(共著者)の監督のもと、NSFコンピュータ支援合成センター(C-CAS)の博士課程の学生たちと共同で、8つの具体的なタスクを特定しています。このプロセスは、適切なプロンプトの生成、評価、選択といったステップを経て、大規模言語モデルに送信されるプロンプトの選定を含んでいます。収集された回答は、実世界の状況での有用性を化学者が質的に評価し、選択された基準に基づいて定量的に分析されています。評価プロセスのワークフローは下図のようになります。

まず、化学タスクの評価では、大規模言語モデルの化学に関する能力を評価するためには、理解、推論、説明の3つの基本能力に焦点を当て、8つの実践的な化学タスクを検討しています。これらのタスクは、タスクタイプ、評価に使用されるデータセット、評価メトリックの観点から下表にまとめられています。


すべてのタスクにおいて、人気の大規模言語モデルである、GPT-4、GPT-3.5、Davinci-003、LLama、Galacticaを用いて性能を評価しています。また、各タスクに対して、標準化されたゼロショットプロンプトテンプレートを使用し、大規模言語モデルに化学者としての行動を指示しています。

また、各化学タスクのためにタスク固有のICL(インコンテキスト学習)プロンプトテンプレートを設計し、これを通じて大規模言語モデルの能力を深掘りしています。プロンプトは、大規模言語モデルに化学者の役割を果たすように指示し、具体的な入力と出力を持つ化学タスクを明示しています。

ICLのサンプルの品質と量の性能への影響を探るために、2つの戦略を採用しています。一つ目はランダム選択、もう一つは特定の基準に基づくスキャフォールド戦略です。これにより、最適な例の選択方法を見つけ出しています。

また、各タスクにおけるICL例の数に関して、異なるタスクタイプに応じたグリッド検索を行っています。初期の検証セットを使用して最適なkの値と検索戦略を特定し、その後、ランダムに選ばれた100のテストインスタンスでこれらの戦略をテストしています。各タスクの評価は5回繰り返され、結果の平均値と標準偏差が報告されています。

このようにして、大規模言語モデルが化学タスクを解決する能力を包括的に評価し、その有効性を定量的および質的に検証しています。

実験分析

ここでは、包括的なベンチマーク分析を通じて得られた主要な発見を探り、大規模言語モデルの限界を深く理解し、さまざまな化学的課題に対する大規模言語モデルの性能に及ぼす影響について洞察を提供しています。

大規模言語モデルは化学タスクで既存モデルを超えられるか?化学的課題には、機械学習を用いた多くの伝統的な予測モデルが存在します。たとえば、分子の特性を予測する二項分類問題に対して、グラフニューラルネットワークベースのMolR、収率予測で最先端の性能を誇るUAGNN、そして分子とテキストの翻訳に特化したT5ベースのMolT5-Largeなどが開発されてきました。この論文では、GPTモデルの性能をこれらの既存ベースラインと比較し、以下の重要な発見を明らかにしています。

  • 性能の優位性:GPT-4は、8つの異なるタスクで評価された他のモデルよりも優れた性能を示しました。
  • タスク依存の競争力:分子のSMILES表現を正確に解釈する必要があるタスク(例:名前予測、反応予測、逆合成解析)では、GPTモデルは競争力がありませんでした。
  • テキスト関連タスクでの強力な能力:分子のキャプション生成などのテキスト関連説明タスクでは、GPTモデルは質的および量的に顕著な能力を発揮しました。
  • 分類とランキングの適用性:特性予測や収率予測など、分類やランキングに転換可能な化学的問題では、GPTモデルは古典的な機械学習モデルを使用する既存のベースラインと比較して競争力のある、またはそれを超える性能を示すことができました。

この分析を通じて、GPTモデルが化学タスクにおいて既存のモデルとどのように比較できるか、そしてその限界と可能性についての貴重な洞察を得ることができました。さらに、GPTモデルの性能を詳細に分析し、その結果を3つのカテゴリーに分けて考察しています(下図:再掲)。競争力のない性能(NC)、競争力のある性能(C)、選択的に競争力のある性能(SC)です。

競争力のないパフォーマンス(NC): GPTモデルは、反応予測や逆合成解析など、大量の訓練データを用いた既存の機械学習モデルと比較して劣るタスクがあります。これは、分子のSMILES文字列の理解における限界に起因します。反応予測や逆合成解析タスクでは、入出力としてSMILES文字列が用いられますが、反応物と生成物、そしてその変換過程を深く理解することが困難であるため、正確な回答の生成が難しいようです。また、GPTモデルは名前予測のタスクでも低いパフォーマンスを示しています。これは、SMILES、IUPAC名、分子式などの複雑な文字列間の正確な変換を行うことが難しいことを示しています。

競争力のあるパフォーマンス(C):分類やランキングの形式に整理された化学タスクでは、GPTモデルは満足のいく結果を達成できます。これは、特定の選択肢からの選択が、生成や変換よりも単純なタスクであるためです。例えば、反応物や溶媒、配位子の選択では、40%から50%の正確さを達成しています。しかし、収率予測では、特定のベースラインモデルに比べて劣る結果が見られました。それでも、少数ショット学習シナリオでは、パフォーマンスの向上が報告されており、GPTモデルの潜在的な改善の余地を示唆しています。

選択的に競争力のあるパフォーマンス(SC): GPTモデルは、特定のタスクで顕著に優れた性能を発揮します。特に、HIVやClinToxデータセットでの特性予測タスクでは、F1スコアと精度がほぼ完璧に近い値を記録しました。これは、求められる応答が単純な「はい」または「いいえ」であることが影響していると考えられます。また、テキストベースの分子設計や分子キャプショニングタスクでは、GPTモデルの言語生成能力が強力なパフォーマンスを引き出しています。ただし、完全一致の精度が低い点は課題として残りますが、生成された分子が化学的に有効である場合、これらは有益な結果として評価されます。

総じて、GPTモデルは化学分野の特定のタスクにおいて顕著な潜在力を示していますが、一部の分野ではまだ改善の余地があります。特に、複雑な化学反応の理解や、正確な化学物質の生成においては、今後の研究と開発が期待されます。

また、大規模言語モデルの能力を比較すると、下表(再々掲)に示されているように、GPT-4モデルはDavinci-003、GPT-3.5、Llama、Galacticaよりも化学に関する理解、推論、説明の能力が優れていることがわかります。これは、GPT-4モデルが基本的なシナリオと現実的なシナリオの両方で他のモデルを上回ることをさらに検証しています。

また、ICLの影響についても検証しています。その結果、以下のような重要な発見がありました。

  • ICLプロンプトは、すべてのタスクにおいてゼロショットプロンプトよりも優れた性能を示しました。
  • スキャフォールドの類似性を用いて検索したICL例は、ランダムサンプリングに比べて多くのタスクで良好な結果をもたらしました。
  • 一般に、より多くのICL例を使用する方が、少ない数を使用するよりも良いパフォーマンスにつながる傾向がありました。

これらの結果から、ICL例の適切な選択と量が学習効果に大きく影響を与えることが示され、より高品質なICL例の開発が今後の課題であることが浮き彫りになりました。

さらに、SELFIESとSMILESのどちらが言語モデルにとって適した分子表現かを検証するための実験が行われました。分子特性予測、反応予測、分子設計、分子キャプショニングの4つのタスクを通じて、SELFIES表現はSMILES表現に比べて劣る結果が得られました。これは、言語モデルがSMILES表現により慣れ親しんでいるためと考えられます。ただし、SELFIESの方が無効な表現が少ない点は、その設計の利点を示しています。

この記事では、一部の実験結果のみ報告していますが、この論文では、さらに包括的かつ詳細な実験結果が報告されています。

まとめ

この論文では、化学分野での大規模言語モデルの適用に必要なスキルを洗い出し、人気のある5つのモデル(GPT-4、GPT-3.5、Davinci-003、LLama、Galactica)に対して、広く利用される8種類の化学タスクでの性能を比較するための詳細な基準を設定しています。

実験の結果、分子のSMILES表現を深く理解することが求められる生成タスク、例えば反応予測や名前予測、逆合成解析において、大規模言語モデルのパフォーマンスが他と比べて劣ることが明らかになりました。

一方で、収率予測や試薬選択のような分類やランキング形式のタスクでは、大規模言語モデルは有望な結果を示しました。さらに、特性予測やテキストベースの分子設計など、プロンプト内のテキストを活用するタスクや、分子キャプショニングのような説明を要するタスクでは、大規模言語モデルが特定の条件下で競争力を持つことが確認されました。

これらの発見は、化学タスクにおける大規模言語モデルの可能性と、その性能向上のためにさらなる改善が必要であることを示唆しています。今後、より多くの新規かつ実践的なタスクを取り入れていくことで、大規模言語モデルと化学研究領域との橋渡しを図り、化学における大規模言語モデルの更なる可能性が探求されることが期待されます。

Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする