【CACTUS】LLMと化学系のツールを融合した薬剤の発見手法
3つの要点
✔️ 大規模言語モデルと化学情報学ツールを活用し、薬剤発見と分子特性予測の研究を加速させるエージェント「CACTUS」を提案
✔️ 大規模言語モデルを用いて、CACTUSの性能を1000の化学質問セットで評価し、基準モデルを大幅に上回る精度を達成
✔️ 高度な計算技術とモデルの統合、使いやすさと説明可能性の改善により、治療薬、触媒、材料の発見と設計に革新を提供
CACTUS: Chemistry Agent Connecting Tool-Usage to Science
written by Andrew D. McNaughton, Gautham Ramalaxmi, Agustin Kruel, Carter R. Knutson, Rohith A. Varikoti, Neeraj Kumar
(Submitted on 2 May 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Chemical Physics (physics.chem-ph); Quantitative Methods (q-bio.QM)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
大規模言語モデルは、さまざまなサービスに導入され、注目を集めているトランスフォーマーベースの基盤モデルです。しかし、これらのトランスフォーマーベースの大規模言語モデルは、膨大なデータで学習されているものの、特定の分野において、精度が十分ではないことがあります。現在の研究では、大規模言語モデルを補強するツールを使用することで、このような欠点を補い、問題解決の効率を高めることができることが示されています。また、特定のタスクに向けたプロンプトを提供することで、モデルが生成するテキストの質と速度を向上させることができることも明らかになっています。これらの手法を組み合わせたものが、Parisiらによって提案されたTALM(Tool Augmented Language Model)と呼ばれるフレームワークです。このフレームワークは、設定されたタスクにおいて既存のモデルを上回る性能を達成しています。
しかしながら、一見、正しいように見えても、大規模言語モデルが、生成された回答が、人間のような推論や専門知識を示すことが難しいことも明らかになっています。モデルがデータから学んだ統計情報にもとづく誤りは、異なるアプリケーションでも似たように再現されることがあります。もし基盤モデルが重要なシステムに統合されている場合、その失敗に利用者に大きな不利益を及ぼす可能性があります。
GPT-4やLLaMA、Gemma、MPT、Falcon、Mistralなどの大規模言語モデルは、さまざまな分野で性能が向上していますが、これらのモデルは動的なデータや機密データへのアクセスが必要な課題に直面すると、その限界が明らかになります。これにより、大規模言語モデルが、外部APIを活用してリアルタイムのデータを取得し、実世界のアプリケーションでの有用性を高める必要性が強調されています。
特に化学、生物、材料科学の分野では、大規模言語モデルの限界はさらに顕著に表れます。化学データの複雑な性質と薬物発見の動的な状況が組み合わさり、純粋な計算モデルだけでは対処できない複雑な課題とされています。この問題に対処するためには、化学情報を扱うツールと大規模言語モデルの認知的および分析的能力を統合することが有効と考えられています。
この分野の最前線とされている技術が、自律エージェントです。これらのエージェントは、特定のタスクに対してさまざまな大規模言語モデルを利用し、APIやインターネット検索ツールを使って関連資料やデータを収集することができます。たとえば、KNIMEやGalaxyのようなツールを活用したプラットフォームにエージェントを統合することで、ユーザーと分析の間に自然言語のインターフェースを導入することができます。これにより、科学的発見と自律実験のプロセスが大幅に効率化されます。
この論文では、ChemCrowから着想を得て、デノボ医薬設計と分子発見を支援する高度な化学情報学エージェント「CACTUS」(Chemistry Agent Connecting Tool Usage to Science)を開発しています。このエージェントは、特定のタスクに最適なツールとその適用順序を適切に決定し、化学研究と開発のワークフローを最適化することができます。
手法
TALMは、外部ツールと言語モデルの2つの主要なコンポーネントで構成されています。ここでは、言語モデルエージェントの実装方法と使用するツールについて説明しています。
TALMを構築する際には、その実装に使用するフレームワークが重要です。この論文では、一般的に使用されるオープンソースプラットフォームであるLangChainを利用しています。このフレームワークは、「Chain」として知られる一連の事前構築されたPythonモジュールを使用して、プロンプトと大規模言語モデルの統合を簡略化してくれます。また、OpenAI APIやHuggingFace Transformersといった人気のある大規模言語モデルのホスティング/推論プラットフォームとの統合も容易になります。
CACTUSは、LangChain実装のカスタムMRKLエージェントを利用しており、これはツール、LLMChain、エージェントクラスの3つの部分に分けられます。1つ目のツールは、よく知られたPythonライブラリを利用する化学情報学のヘルパー関数のコレクションです。2つ目のLLMChainは、ツールとエージェントを統合するLangChain特有の機能で、任意の推論を実行する際に大規模言語モデルに提供されるプロンプトです。これによって、モデルの初期化とユーザー入力の解析が容易になります。CACTUSでは、エージェントが化学情報学の質問に答えるためのステップを説明するプロンプトを提供しています。
3つ目のエージェントクラスは、LangChain実装の関数で、初期プロンプト後のユーザー入力を解釈し、最適なアクションを決定して質問を解決します。CACTUSは、ツールの説明から使用するツールを決定するためにReActフレームワークを使用するゼロショットのエージェントクラスの汎用実装を使用しています。
このツール、LLMChain、ゼロショットエージェントの組み合わせによって、CACTUSは新しいツールを迅速に統合し、多様な化学情報学の質問を解決できる拡張可能な大規模言語モデルツールを実現しています。
下図は、大規模言語モデルが入力をどのように解釈して正しいツールを選び、回答を得るかを示したCACTUSエージェントの一般的なワークフローを示しています。
ユーザーの入力から始まり、CACTUSは計画、行動、実行、観察フェーズを持つ標準的な「チェーン・オブ・ソート(CoT)」推論法に従って、出力を得ることができます。
また、CACTUSは、多様な化学情報学の質問に答える強力な大規模言語モデルのエージェントを作成するために、RDKitやSciPyといったPythonライブラリの共通機能を統合した幅広いツールを組み込んでいます。また、PubChem、ChEMBL、ZINCといったデータベースへのインターフェースも提供しています。これらのツールによって、SMILES文字列から始まり、分子記述子、類似性、吸収、分布、代謝、排泄(ADME)属性などの情報に至るまで、チャットベースでの分子解析が可能になります。
このモデルは、入力された化合物の様々な記述子に関する情報を提供する10種類のツールで構成されています。下表は、現在利用可能なツールのリストです。入力された化合物の異なる物理化学的性質や分子記述子を取得するのに役立ちます。これには、分子量、分配係数の対数(LogP)、トポロジカル極性表面積(TPSA)、薬物様性の定量的推定(QED)、および合成容易性(SA)が含まれています。
さらに、ACTUSは、BOILED-Egg法を使用して、C血液脳関門透過性や胃腸吸収などの薬物動態特性も推定することができます。また、モデルは薬物様性、PAINS、Brenkフィルターを実装しており、構造および毒性アラートを識別することができます。これらのツールは、現在利用可能なリード化合物と新しいリード化合物の両方の特定とスクリーニングすることができます。
現在は単純なSMILESを入力として使用していますが、著者らは、将来的には、化合物名、分子式、InChIキー、CAS番号、ChEMBL ID、ZINC IDなどの様々なユーザー入力に適用できるように拡張する予定としています。
また、エージェントに対するプロンプトの重要性についても検証しています。大規模言語モデルエージェントのLangChain実装では、デフォルトのプロンプトが提供され、使用可能なツールと大規模言語モデルのタスクについて一般的な指示を与えることもできます。しかし、これは必ずしもドメイン固有の情報を理解するように最適化されていないため、改善の余地があるとし、この仮説を検証するために、2つのシナリオを実行しています。1つはデフォルトのプロンプトを変更せずにツールの説明のみを含む「ミニマルプロンプト」、もう1つはエージェントを化学のドメインにより合わせた「ドメインプロンプト」です。
ドメインに合わせたプロンプトは、質問の解釈をより良くし、ユーザーの問い合わせに対する回答の効果を高めると考えられます。テストには広範な大規模言語モデルを使用したため、ミニマルプロンプトにはモデル固有のトークンも含まれ、モデルがドメインプロンプトに対して不公平に評価されないようにしています。
また、ドメイン固有のTALMの評価は難しいですが、一般的なベンチマークスイートの例に従うことができます。したがって、エージェントが典型的に遭遇する質問を再現する一連の質問に依存し、ユーザーが追加のプロンプト作業を必要とせずにエージェントが正しく回答できるかどうかを評価しています。
CACTUSを評価するために、ツールの出力に応じた3つの質問セットを作成しています。最初のセットは定性的質問で、Yes/NoやTrue/Falseのような回答を返す質問です。2つ目は定量的な質問で、数値を返し、エージェントがそれを解釈します。3つ目は定性的および定量的の両方を組み合わせた「統合セット」です。
下表には、CACTUSエージェントにユーザー入力として渡された質問の例が示されています。定性的および定量的データセットはそれぞれ500の質問を含み、統合データセットは1000の質問を含んでいます。多様なタスクを遂行する大規模言語モデルエージェントの能力をテストするため、ほとんどのテストは統合データセットで行っています。
実験と結果
CACTUSの実装は、分子発見や薬剤設計に取り組む研究者や化学者にとって、強力で柔軟なツールを提供し、化学情報学の分野におけて多く貢献しています。ここでは、」さまざまな7bパラメータモデルに対するベンチマークの研究により、CACTUSの堅牢性と効率性が明らかになり、薬剤発見プロセスの効率化と加速の可能性が強調されています。
CACTUSの性能は、10種類のツールをカバーする1000の質問セットを用いて評価されています。また、各7bパラメータモデルについて、ドメインプロンプトの有無で評価を行っています。正解とされた回答は、正解(Correct)としてスコアリングされ、不正解、回答を出せなかった場合、または提供されたツールを正しく使用できなかった場合は、不正解(Incorrect)としてマークされます。
この論文では、不正解ツールの使用と単なる誤回答を区別していません。質問に一貫した回答を提供できなかったものも不正解と見なしています。正しい回答を含む追加のフォーマット済みテキストが含まれている場合、それは許容されましたが、これは望ましい形式ではありません。この追加情報は、プログラムで削除するか、追加のプロンプトを設計して減らすことができます。完全な質問セットの各タイプの質問は100回ずつ行われ、10種類のツールに対応する10種類の質問に相当します。
この方法により、モデルにとってより挑戦的なツールを特定し、ツールの説明やモデルプロンプトの改善点を見出しています。先ほどの図に示されている結果は、モデルの回答精度向上におけるドメイン固有プロンプトの重要性を示しています。特に定性的質問において顕著です。これは、プロンプトエンジニアリングが言語モデルの性能向上に果たす役割を強調する最近の研究と一致しています。
AIの進展と科学的探究におけるその応用において、ドメイン固有のタスクを処理するさまざまなモデルの比較効果を分析することが重要です。
下図に示されたベンチマーク分析では、最小限の情報とドメイン固有の情報を用いてプロンプトされた場合の異なる言語モデルの性能について重要な洞察を提供しています。質問タイプ全体にわたる性能データの包括的なレビューは、Gemma-7bとMistral-7bモデルが堅牢性と多様性を示し、プロンプトの性質に関係なく優れた性能を発揮することを明らかにしています。
質問タイプ全体にわたる性能データの包括的なレビューは、Gemma-7bとMistral-7bモデルが堅牢性と多様性を示し、プロンプトの性質に関係なく優れた性能を発揮することを明らかにしています。これら一貫した精度は、薬剤らしさや血液脳関門透過性などの物理化学的特性から、定量的薬剤らしさ推定(QED)のような複雑な指標に至るまで、分子科学分野内での広範なクエリに対する信頼性を示していると言えます。一方、Falcon-7bモデルは、最小限のプロンプトとドメインプロンプトの間で顕著な性能差を示しています。この変動は、Falcon-7bが効果的にその潜在能力を引き出すために、より詳細なプロンプト調整が必要であることを示唆しています。プロンプトタイプに基づく性能の大きな違いは、入力構造や内容に対するモデルの感受性を示しており、効果的な問い合わせ戦略の構築において重要です。
さらに、下図のように、Phi2やOLMo-1bのような小型モデルが消費者向けハードウェアで優れた性能を示しています。これは強力な化学情報学のツールへのアクセスの民主化の可能性を示しています。これにより、限られた計算資源を持つ研究者もCACTUSの能力を活用できるようになります。
この包括的なモデル比較と分析の結果は、科学的環境におけるオープンソースモデルの利用に広範な影響があることを示しています。ドメイン固有のプロンプトを用いてモデルが優れた性能を発揮する能力は特に有望であり、適切な設定でオープンソースモデルが非常に効果的なツールとなることを示唆しています。
Gemma-7bやMistral-7bモデルが示した適応性は、高性能クラスターからより控えめな研究環境に至るまで、さまざまな計算設定にわたる広範な適用可能性を示しています。さらに、オープンソースモデルを効果的にプロンプトする能力は、さまざまな科学的文脈での使用を可能にします。これにより、研究者はモデルを特定のドメインにカスタマイズでき、一般的なAI能力と専門知識領域の間のギャップを埋める可能性があります。
また、これらのモデルの柔軟性と性能は、特に合成有機化学や薬剤発見などの分野において科学研究に大きな影響を与えています。これらの分野の研究者にとって、オープンソースモデルを効果的に利用する能力は、発見プロセスを加速し、予測精度を向上させ、計算資源を最適化することができます。このベンチマークの研究から得られた洞察は、特定の研究ニーズに合わせてモデルを選択し、調整するためのロードマップを提供し、科学的目標の達成を最大限に支援することができます。選ばれた7bパラメータモデルのベンチマークの研究は、AI駆動の研究ツールの進歩を証明するものであり、プロンプトの最適化の必要性と、さまざまな科学的探究におけるオープンソースモデルの約束を強調しています。この分析は、これらのモデルが計算化学者のツールキットの不可欠な要素となり、分子設計と薬剤発見における革新的なブレークスルーの道を開く可能性を示しています。
CACTUSは、すでに入力された化学化合物の基本的な指標を推定する能力を示していますが、著者らは、将来的には治療薬の設計と発見に特化した包括的なオープンソースツールへと進化することを目指すとしています。そして、この目標を達成するために、以下のような機能の統合が計画しているとしています。
- 物理学に基づく分子AI/MLモデルの導入
- 3D-scaffold、強化学習、グラフニューラルネットワーク(GNN)が含まれます。これらのモデルは、分子動力学シミュレーション、量子化学計算、高スループット仮想スクリーニングと連携し、分子相互作用を正確にモデル化し、治療薬の有効性と安全性を予測するために不可欠です。
- 3D-scaffold、強化学習、グラフニューラルネットワーク(GNN)が含まれます。これらのモデルは、分子動力学シミュレーション、量子化学計算、高スループット仮想スクリーニングと連携し、分子相互作用を正確にモデル化し、治療薬の有効性と安全性を予測するために不可欠です。
- 構造的および化学的な類似性を示す化合物や、生物活性に重要なフラグメントを特定するための高度な機能の実装
- 研究者は広大な化学空間をより効率的に探索し、高精度でリード化合物を特定することが可能になります。これらの追加機能は、エージェントが3D空間での化合物の挙動を理解する能力を大幅に向上させ、治療薬の発見と材料設計のための包括的かつ効果的なワークフローの開発を支援することができます。
- 広範な化学データベースから類似の構造および化学特性を持つ重要なフラグメントや化合物を特定するツールの追加
- 物理化学的および薬物動態的特性、その他約60の記述子を計算するツールをエージェントに追加し、定量的構造活性相関(QSAR)および定量的構造特性相関(QSPR)を特定して、化合物のスクリーニングと毒性グループの識別に役立てることができます。
- 物理化学的および薬物動態的特性、その他約60の記述子を計算するツールをエージェントに追加し、定量的構造活性相関(QSAR)および定量的構造特性相関(QSPR)を特定して、化合物のスクリーニングと毒性グループの識別に役立てることができます。
さらに、大規模言語モデルに対する一般的な批判である推論の困難さと説明可能な出力の提供に対応するため、これらの技術的な改善に加えて、CACTUSをより説明可能で象徴的な推論が可能なものにすることも目指しているとしています。高度な象徴的推論能力を統合することで、CACTUSは予測および分析機能でより強力になり、その推奨事項と予測に対する理解しやすく論理的な説明をユーザーに提供することができると考えられます。そして、この機能により、薬候補分子がタンパク質のような標的とどのように相互作用するかを予測するプロセスが自動化され、新しい化合物の有効性に関する貴重な洞察が得られることが期待されます。
CACTUSの応用は、薬の発見にとどまらず、化学、触媒、材料科学などの他の分野にも広がります。触媒の分野では、CACTUSはその構造的および化学的特性に基づいて触媒の特性と性能を予測し、新しい触媒の発見と最適化を支援することができます。同様に、材料科学では、CACTUSは広大な化学空間を探索し、さらなる実験的検証のための有望な候補を特定することで、望ましい特性を持つ新しい材料の設計を支援することができます。
CACTUSの将来の開発は、治療薬の発見と最適化、ならびに触媒および材料の発見と最適化に役立つ、知的で包括的な科学情報学のツール作成に向けられています。高度な計算技術およびモデルの統合、使いやすさと説明可能性の改善を通じて、CACTUSは新しい効果的で安全な治療薬の発見、および触媒と材料の最適化のための不可欠なリソースとなることが期待されます。
まとめ
この論文では、新しいオープンソースエージェント「CACTUS」を紹介しています。CACTUSは、大規模言語モデルと化学情報学のツールを活用して、薬剤発見と分子特性予測の分野の研究を加速させることができます。さまざまな計算ツールやモデルを統合することで、研究者や化学者が広大な化学空間を探索し、治療応用に有望な化合物を特定するための包括的で使いやすいプラットフォームを提供します。
Gemma-7b、Falcon-7b、MPT-7b、Llama2-7b、Mistral-7bなどのオープンソースの大規模言語モデルを用いて、CACTUSの性能を1000の化学質問セットで評価しています。その結果、CACTUSは基準となる大規模言語モデルを大幅に上回り、特にGemma-7bとMistral-7bモデルは使用されたプロンプト戦略に関係なく最高の精度を達成しています。さらに、ドメイン固有プロンプトとハードウェア構成がモデルの性能に与える影響を調査し、プロンプトエンジニアリングの重要性と、小型モデルを消費者向けハードウェアで展開する可能性を強調しています。Phiのような小型モデルが消費者向けハードウェアでも高精度を達成できることは、CACTUSの幅広い普及とアクセス性を高める可能性を示しています。
CACTUSは、他の計算ツールや自律発見プラットフォームと統合され続けることで、薬剤発見、触媒設計、材料科学のアプローチに革命をもたらす可能性があります。CACTUSの今後の開発では、治療薬、触媒、および材料の特定と設計において高い安全性と有効性を確保する知的で包括的な化学情報学ツールの作成に向けられています。著者らは、高度な計算技術とモデルの統合、使いやすさと説明可能性の改善を通じて、CACTUSはさまざまな科学分野の研究者にとって不可欠なリソースとなることを目指しています。
この記事に関するカテゴリー