「分子の幾何学構造を理解できるLLM」の性能を評価

Large language models 2024年11月28日

3つの要点
✔️ 大規模言語モデルは分子予測タスクにおいて既存の機械学習モデルに劣る
✔️ 大規模言語モデルは補完ツールとして活用することで予測精度が向上する可能性がある
✔️ 分子の幾何学構造を理解するための大規模言語モデルの限界を克服する必要がある

Benchmarking Large Language Models for Molecule Prediction Tasks
written by Zhiqiang Zhong, Kuangyu Zhou, Davide Mottin
(Submitted on 8 Mar 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Biomolecules (q-bio.BM)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、機械学習モデルは様々な分野で普及が進んでいます。学界と産業界の両方が、機械学習の効率を高めるために多大な努力を注いでおり、人工汎用知能（AGI）の実現を目指しています。特に大規模言語モデル（LLM）のような生成モデルの驚異的な進歩は、自然言語処理（NLP）の分野において変革をもたらしました。大規模言語モデルは、人間のようなテキストを理解し生成する卓越した能力を示し、機械翻訳、常識推論、コーディングタスクなど多様な自然言語処理のタスクにおいて不可欠な存在となっています。

最近の画期的な技術であるインコンテキストラーニング（ICL）は、推論中にタスク特有の知識を取得することで、大規模言語モデルの適応性をさらに向上させ、大規模なファインチューニングの必要性を減らすことができました。大規模言語モデルは様々な自然言語処理のアプリケーションでその効果を実証していますが、他の分野におけるその潜在能力の全貌は未だに十分に研究されていません。特に、大規模言語モデルはグラフのような構造化データに対しては苦戦しており、生物学や化学のようなドメイン固有のクエリに対しても課題を抱えています。

このギャップを埋めるため、この論文では「大規模言語モデルは分子予測タスクを効果的に扱えるのか」という重要な研究課題に取り組んでいます。この研究課題に答えるために、分類および回帰予測タスクを含む重要なタスクを特定し、6つのベンチマークの分子データセット（例：ogbg-molbace, ogbg-molbbbp, ogbg-molhiv, ogbg-molesol, ogbg-molfreesolv, ogbg-mollipo）を利用して調査を行っています。

下図に示すように、分子はSMILES文字列や幾何学的構造など、様々な表現形式で表すことができます。しかし、既存の大規模言語モデルの大きな制約の一つは、非構造化テキストに依存しているため、重要な幾何学的構造を入力として取り込むことができないことです。この課題に対処するため、Fatemiらはグラフ構造をテキスト記述にエンコードする方法を提案しています。この論文では、下図に示すように、この方法を拡張し、分子の原子特性とグラフ構造の両方をテキスト記述にエンコードします。

次に、大規模言語モデルの様々な能力（例：ドメイン知識、ICL能力）を活用するための一連のプロンプトを戦略的に設計し、分子タスクに対する応答を生成します。その後、これらの応答を一貫性と下流タスクでの性能の観点から評価し、分子予測タスクのために設計された既存の機械学習モデルによって生成されたものと比較しています。

研究の結果、大規模言語モデルは既存の機械学習モデルと比較して競争力のある性能に欠けており、特に分子の幾何学的構造を捉えるために特化したモデルでは劣った結果を示すことがわかりました。ICL技術は大規模言語モデルの性能向上に大いに役立ちますが、それでも既存の機械学習モデルには及ばず、現在の大規模言語モデルが分子タスクに直接取り組む能力に限界があることを浮き彫りにしています。

次に、大規模言語モデルの応答を既存の機械学習モデルと統合する可能性を探り、多くのシナリオで顕著な改善を観察しています。この結果から、現時点では、大規模言語モデルを分子予測タスクに直接取り組ませるよりも、ドメイン知識の増強剤として活用する方が効果的であると考えられます。さらに、分子タスクにおける既存の大規模言語モデルの限界と有望なアプローチについて洞察を提供しています。この研究が大規模言語モデルによって強化された分子タスクの学際的なフレームワーク設計に新たな洞察をもたらすことが期待されます。

方法

この論文の目的は、生物学の分野における構造化された分子データに対する、難易度の高い予測タスクを扱う大規模言語モデルの性能を評価することです。分子は、SMILES文字列や幾何学構造など、様々な形式で表現できます。しかし、既存の大規模言語モデルは非構造化テキストに依存するため、重要な幾何学的構造を入力として取り込むことができないという制約があります。この制約を克服するために、Fatemiらはグラフ構造をテキスト記述にエンコードする方法を提案しています。この論文では、この方法をさらに拡張し、分子の原子特性とグラフ構造の両方をテキスト記述にエンコードしています。これにより、異なる予測タスクにおいて重要な分子の特性を取り込むことができます。

まずは、問題設定についてです。まず分子GをG=(𝑆, 𝐺, 𝐷) として表現します。ここで、𝑆はSMILES文字列、𝐺は幾何学構造、𝐷はGの生成された原子特性とグラフ構造の記述を表しています。𝑦∈YはGのラベルを表します。ここで、分子の集合M={G1, G2, ... , G_𝑚}が与えられたとき、M_T⊂Mは既知のラベル𝑦_𝑣を持つ分子を含むとします。目標は、未知のラベル𝑦_𝑢をすべてのG_𝑢∈M_{𝑡𝑒𝑠𝑡}（M_{𝑡𝑒𝑠𝑡} = M\M_T）に対して予測することです。さらに、M_Tは2つのサブセット、M_{𝑡𝑟𝑎𝑖𝑛}とM_𝑣𝑎𝑙に分割されます。M_{𝑡𝑟𝑎𝑖𝑛}は学習セット、M_𝑣𝑎𝑙 は検証セットとして機能します。この分離により、モデルのパラメータを微調整し、過剰適合を軽減し、テストデータセット M𝑡𝑒𝑠𝑡 に適用する前に機械学習（ML）モデルの有効性を検証することができます。

次に、プロンプトエンジニアリングの目標は、質問Qを適切な形でフォーマットし、大規模言語モデル（𝑓_𝐿𝐿𝑀）が対応する答え 𝐴 を返すようにすることです。この論文では、分子に関する有益で包括的な知識を大規模言語モデルに提供し、テストデータセットに対して予測を行えるようにすることを目指しています。大規模言語モデルの性能を向上させるためには、ファインチューニングやLoRAなどの方法がありますが、これらは通常、モデルの内部にアクセスする必要があり、計算能力も高くなるため、現実のシナリオでの適用が難しいことが多いとされています。そこでこの論文では、𝑓_𝐿𝐿𝑀とそのパラメータが固定されており、ブラックボックスの設定で𝑓_𝐿𝐿𝑀がテキストのみを入力および出力する状況を対象としています。この設定は、プロプライエタリモデルの数が増加し、それらのハードウェア要件が高まる中で特に重要になります。

最初のプロンプトセット（IF, IP, IE）は、分子のSMILES文字列𝑆と記述𝐷を提供し、事前の学習やタスクに関する知識なしに、望ましい形式で出力を生成するよう大規模言語モデルに要求します。大規模言語モデルへの指示は背景情報を提供するだけです。特に、IFは予測タスクに役立つ有意義な洞察を提供するように大規模言語モデルに求めます。

IPは分子の特性に関する予測を求め、IEはさらに説明を求め、大規模言語モデルが説明生成の過程を明確にし、予測を理解するための有用な証拠を提供する必要があります。また、IF、IP、IEの記述を補完することで、IFD、IPD、IEDプロンプトが導き出されます。記述は分子グラフの特徴と構造情報についてより包括的な情報を提供しますが、大量のトークンを生成するため、大規模言語モデルの回答の一貫性や制約に影響を与える可能性があります。

次のプロンプトセット（FS）は、タスクの少数の例と望ましい出力を提供し、大規模言語モデルがこれらのサンプルから学習して新しい入力に対してタスクを実行できるようにします。この方法は単純なインコンテキストラーニング（ICL）技術として分類され、サンプルとしてプロンプトテンプレートが示されます。FS-𝑋 はプロンプトに含まれる𝑋個のコンテキスト知識インスタンスを示します。この論文では、生成された記述が大量のトークンを含むため、大規模言語モデルの入力制約を超える可能性があるFSDプロンプトについては議論されていません。

最近人気のあるICL技術として、Chain-of-thought（CoT）、Tree-of-thought（ToT）、Graph-of-thought（GoT）、Retrieval Augmented Generation（RaG）があります。これらは理論的には複雑なタスクをサポートし、大量の知識コンテキストを含むことができます。しかし、初期の実験では、分子特性予測タスクにおいてCoT、ToT、GoTのパフォーマンスが大幅に低下することが示されています。これは、適切なチェイン思考を設計するためには確固たる専門知識が必要であるためとしています。RaGの実装は不安定でクエリに時間がかかり、FSのパフォーマンスに比べて劣ることが判明しています。この原因は情報検索システムの品質にあると考え、今後の研究で詳しく議論する予定としています。

さらに、この論文では、ターゲット分子M_{𝑡𝑒𝑠𝑡}に対する予測を生成するための予測モデルを紹介しています。ここでは、大規模言語モデル（LLM）、言語モデル（LM）、グラフニューラルネットワーク（GNN）ベースの方法を取り上げ、分子情報を包括的に捉える方法について紹介しています。

大規模言語モデルベースの方法では、上述のテンプレートに従って生成されたプロンプトを入力として、指定された形式に従って回答を生成しています。特に、LLMSoloはIF、IP、IE、FSテンプレートに基づくクエリを入力とし、LLMDuoはIFD、IPD、IEDテンプレートに基づくクエリを入力としています。

言語モデルは、利用可能なテキスト情報に基づいて予測を生成します。例えば、SMILES文字列や記述、大規模言語モデルによって提供された応答などです。実験結果から、記述を使用した言語モデルのパフォーマンスは他の設定と比較して競争力がないことが判明しています。したがって、この論文では、SMILES文字列のみを入力とする（LMSolo）、SMILES文字列と大規模言語モデルが提供する応答を入力とする（LMDuo）という2つの設計を採用しています。

グラフニューラルネットワークモデルは、分子の幾何学構造情報を効果的に捉えるため、分子特性予測タスクにおいて最先端の方法です。さらに、言語モデルの支援を受けることで、利用可能なテキスト情報を追加の特徴に変換し、その後、グラフニューラルネットワークモデルに入力することができます。

特に、言語モデルの柔軟性によりテキスト情報を埋め込みに変換できるため、グラフニューラルネットワークモデルは異なる視点からの情報を組み込む柔軟性を持ちます。この論文では、下図（再掲）のように、GNNSolo、GNNDuo、GNNTrioの3つの設計を採用しています。

実験

ここでは、分子予測タスクにおける大規模言語モデルの効果を評価するための実証研究と分析を紹介しています。分析は、特に難しい分子グラフ特性予測タスクに焦点を当てています。

まず実験設定についてです。機械学習研究で一般的に使用される6つのベンチマーク分子特性予測データセットを使用しています。これには、ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv、ogbg-mollipoが含まれます。収集されたデータセットの概要は下表に示されています。

また、分子予測タスクにおける大規模言語モデルの有効性を調査するために、2つの異なるカテゴリの機会学習モデルを検討します。1つ目は、テキスト情報のみを入力とする言語モデルで、DeBERTaを使用しています。2つ目は、分子の幾何学構造情報および利用可能な他の特徴を捉えるグラフニューラルネットワークで、GCN、GINの2つのクラシックなグラフニューラルネットワークバリアントを検討します。これらのフレームワークは下図に示されています。

この論文では、大規模言語モデルのパラメータが固定されており、システムがブラックボックス設定で利用可能である状況に焦点を当てます。この場合、Llama-2-7b、Llama-2-13b、GPT-3.5、GPT-4を大規模言語モデルとして使用し、ほとんどの実験でGPT-3.5を主要な大規模言語モデルとして使用しています。公式APIまたは公式実装から取得しています。

機械学習の予測モデルは、公式実装に従って実装します。例えば、OGBベンチマークリーダーボード上のグラフニューラルネットワークモデルのバリアントの利用可能なコードを採用しています。DeBERTaについては、公式実装を採用し、パイプラインに組み込んでいます。大規模言語モデルについては、OpenAIが提供するAPIまたは公式実装をデフォルトのハイパーパラメータ設定で呼び出しています。

次に、評価プロセスのワークフローです。概要は下図に示されています。従来の評価ワークフローでは、モデルの下流タスクにおける性能を評価しますが、今回は大規模言語モデルの応答一貫性も分析します。

大規模言語モデルは知識の幻覚（ハルシネーション）を生じる可能性があり、ユーザーの期待から逸脱する応答を生成することがあります。そのため、要求されたフォーマットに従った大規模言語モデルの応答の割合（応答一貫性）を算出しています。公平な比較を保証するために、Huらが提供する固定スプリットを採用しています。これにより、異なる実験間で評価条件の一貫性が保たれ、モデル間の有意義な比較が可能となります。

また、初期調査では、ogbg-molhivデータセットを用いて様々な大規模言語モデルの効果を評価しています。プロンプトはテンプレート（IP、IPD、IE、IED、FS-1、FS-2、FS-3）に従って生成しています。下図に示すように、GPTモデルは全ての評価指標でLlamaモデルを上回り、一貫した性能を示しています。

これは、GPTモデルが分子予測タスクに優れていることを示唆しています。しかし、GPT-4 APIの使用コストはGPT-3.5の20倍で、応答時間も10倍遅いことがわかりました。したがって、性能と計算効率を考慮し、この論文ではGPT-3.5をデフォルトの大規模言語モデルとして採用しています。

下表は6つのデータセットでの分析結果です。この結果より、LLMは3つのMLモデルに比べて一貫して劣ることが明らかになりました。これにより、分子予測タスクの専門家として大規模言語モデルに頼ることは不十分である可能性が示唆されています。大規模言語モデルの限界を理解し、予測精度を向上させるための代替アプローチを探る必要があるとしています。

現在の大規模言語モデルは、非構造化テキストに依存しているため、分子の幾何学的構造を入力として取り込む能力が制限されています。この制約を解決するために、Fatemiらはグラフ構造をテキストにエンコードする方法を提案しています。しかし、上表の結果から、プロンプトに説明を追加しても性能が向上しない場合があり、むしろ低下することがわかりました。これは、追加のトークンが大規模言語モデルの注意を分散させ、複雑性を増すためとしています。

下表（再掲）の結果は、幾何学的構造を統合したモデルがそうでないモデルに比べて優れていることを示しています。既存の大規模言語モデルは生成された説明のトークン数が制約を超えるため、幾何学情報をプロンプトに直接組み込むことが困難です。

この論文では、この課題に取り組むことは、今後の研究において重要としています。トークン管理技術、洗練されたプロンプトエンジニアリング戦略、または広範な入力表現を扱える代替モデルアーキテクチャなどの解決策が考えられます。これにより、大規模言語モデルは分子の幾何学的複雑さをよりよく捉え、化学モデリングタスクにおける予測能力を向上させることができます。

大規模言語モデルを直接分子予測タスクに利用するだけでなく、既存の機械学習モデルと統合することで得られる潜在的な利点も探求しています。下図（再掲）に示されたフレームワークに従い、グラフニューラルネットワークなどの機械学習モデルの入力特徴を大規模言語モデルが生成した応答で補強しています。

下の2つの表の結果は、大規模言語モデルの応答を追加の入力特徴として導入することで予測性能が顕著に向上することを示しています。これは、大規模言語モデルが生成した応答を利用することで、従来の機械学習モデルが捉える情報を補完し、予測精度が向上することを示唆しています。このハイブリッドな方法は、分子特性予測の最先端を進化させる有望な方向性を示しています。

下表は、6つのデータセット（ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv、ogbg-mollipo ）における分子グラフ特性の予測性能を示しており、、Duoパイプラインに従っています。分類タスクはROC-AUC（↑：高い方が良い）で評価され、回帰タスクはRMSE（↓：低い方が良い）で評価されます。各モデルの最高性能は下線で示され、全体の最高性能は太字で示されています。

また、下表は、6つのデータセット（ogbg-molbace、ogbg-molbbbp、ogbg-molhiv、ogbg-molesol、ogbg-molfreesolv、ogbg-mollipo）における分子グラフ特性の予測性能を示しており、Trioパイプラインに従っています。分類タスクはROC-AUC（↑：高い方が良い）で評価され、回帰タスクはRMSE（↓：低い方が良い）で評価されます。各モデルの最高性能は下線で示され、全体の最高性能は太字で示されています。

まとめ

この論文では、大規模言語モデルが分子に関するタスクを処理する能力に関して重要な洞察を提供しています。6つのベンチマークのデータセットに対する包括的な分析から、大規模言語モデルは分子を予測するタスクにおいて、特に分子の幾何学構造を捉えるために設計された既存の機械学習モデルと比較して競争力が劣ることが明らかになりました。さらに、大規模言語モデルを補完ツールとして活用する可能性が示唆され、大規模言語モデルを既存の機械学習モデルと統合することで、予測精度が向上することが示されました。これは、大規模言語モデルと従来の機械学習モデルを組み合わせて効果的に活用する有望な方法を示唆しています。

この研究は、分子に関するタスクにおける大規模言語モデルの現在の限界を明確にしつつ、今後の研究に向けた新たな方向性を開いています。特に、大規模言語モデルをドメイン固有の知識や構造情報とより良く統合する革新的な方法論を探求することで、観察されたパフォーマンスのギャップを埋める可能性があります。この論文では、分子に関するタスクにおける大規模言語モデルの強みと弱みについての理解を深め、化学、生物学、それらの関連分野での実用的な活用に向けた情報に基づいた戦略を示唆しています。

また、分子予測タスク以外にも、今後の研究には多くの有望な方向性があります。特に、分子の幾何学構造を理解する上での大規模言語モデルの制限に対処することが重要です。大規模言語モデルがそのような構造の微妙さを把握できないことで、よく不正確さな結果が見られます。この制限を克服し、大規模言語モデルの分子幾何学構造の理解を強化することは、分子タスクにおける大規模言語モデルの適用性を広げるために不可欠と考えられます。

この論文では、従来の機械学習モデルと大規模言語モデルを統合するための簡単で効果的なフレームワークを提案していますが、この点において、さらに洗練された方法論を開発する余地があると言えます。大規模言語モデルと既存の機械学習モデルをシームレスに統合する高度なフレームワークを設計することは、今後の研究において有望な方向性を示し、予測性能とモデルの解釈可能性の向上につながる可能性があると考えられます。

また、分子専用の大規模言語モデルの開発は非常に重要と考えられます。多くのタスクでベースラインと比較して大規模言語モデルが劣るにもかかわらず、限られたサンプルから解決策を導き出す能力は、分子領域における一般化された知能の可能性を示しています。しかし、現在の大規模言語モデルは化学タスクで顕著な幻覚（ハルシネーション）を示し、改善の余地があることを示唆しています。大規模言語モデルの継続的な開発と幻覚（ハルシネーション）の軽減に向けた研究は、実際の化学問題解決における有効性を高めるためにますます求められるでしょう。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。