化学分野におけるLLMの革命！外部ツールを活用した統合エンジン「ChemCrow」

Large language models 2024年03月29日

3つの要点
✔️ ChemCrowの導入と目的：ChemCrowは、大規模言語モデルを化学タスクに特化させる新しいエンジン。専門ツールと組み合わせることで適用範囲を広げ、化学知識のアクセス障壁を低減し、専門家だけでなく非専門家にも化学の自動化ツールを提供可能。
✔️ 実装と成果：ChemCrowは、薬物設計や材料合成などの具体的な化学タスクを自動化する能力を示し、虫除け剤や有機触媒、新規色素のスクリーニングおよび合成など、複数の成果を達成。
✔️ 課題と将来の展望：ChemCrowは、選定されたツールの量と品質に依存する制約があるが、将来的には言語ベースのツールや画像処理ツールの統合により、その機能は大きく拡張される可能性がある。オープンソースバージョンの公開により、広範な研究や開発への活用が期待される。

ChemCrow: Augmenting large-language models with chemistry tools
written by Andres M Bran, Sam Cox, Oliver Schilter, Carlo Baldassari, Andrew D White, Philippe Schwaller
(Submitted on 11 Apr 2023 (v1), last revised 2 Oct 2023 (this version, v5))
Subjects: Chemical Physics (physics.chem-ph); Machine Learning (stat.ML)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

過去数年間、大規模言語モデルが自然言語処理タスクの自動化を通じて様々な業界に革命をもたらしています。その最たる例が、2021年に登場したGitHub Copilotやその後のStarCoderであり、これらは開発者の生産性を飛躍的に向上させるコード補完を提供しています。これらの進化は主に、多くの自然言語処理タスクに適用可能なTransformerアーキテクチャに基づいていますが、単純な算数や化学の問題に苦戦するなど、大規模言語モデルの限界も明らかになっています。これらの課題は、モデルが主に次の単語を予測する設計に基づいているためです。

これに対処する一つのアプローチは、大規模言語モデルを特定のタスク向けの外部ツールやプラグインで拡張することです。これらの専門ツールは、大規模言語モデルの精度を高め、特定分野での適用性を広げることができます。化学の分野では、AIシステムが反応予測や分子生成など、特定の問題を解決するために導入されてきましたが、化学の自動化は依然として挑戦的な領域です。これは、実験の性質、データの欠如、ツールの限定的な範囲などに起因します。

これらのツールを統合する試みは、多くの場合、独立した環境で行われ、実験化学者にとっては、これらのツールの相互運用性と統合に大きな課題があります。この課題を解決するために、この論文では化学タスクを簡素化する新しい化学エンジン「ChemCrow」を提案しています。ChemCrowは、薬物設計や材料合成などのタスクで、専門ツールの力を活用し、GPT-4を含む大規模言語モデルに具体的な指示を与えることで機能させることができます。このシステムは、ユーザーが与えたプロンプトに応じて適切なツールを使用し、タスクの現状を理解し、次のステップを計画する能力を持っています。

このアプローチは、タスク関連ツールと連鎖思考推論（CoT）を組み合わせることで、大規模言語モデルがより高度な推論を行い、最終的な解答に到達するまでのプロセスを支援することができます。ChemCrowは、化学の専門家だけでなく、非専門家にもアクセスしやすいインターフェースを提供し、化学知識の普及とアクセスの障壁を低減することができます。

ChemCrowとその性能

ChemCrowは、単純なユーザー入力から「昆虫忌避剤の合成計画と実行」や「Diels-Alder反応を加速する触媒の探索と合成」などに対応する分子を見つけ、合成を計画し、IBM Researchのクラウド接続専用プラットフォームRoboRXNで合成を実行しています。

これを行うために、ChemCrowはLitSearch/WebSearch、Name2SMILES、ReactionPlanner、そして最終的にReactionExecuteなどのツールを順番に照会し、情報を組み合わせて課題を解決しています。合成計画と実行に関連する大規模言語モデルエージェントが物理世界と相互作用することを示しています。

標準化された合成手順は、成功のための鍵です。しかし、予測された手順は常にRoboRXNプラットフォームで直接実行可能なわけではありません。典型的な問題には、「溶媒が不足している」や「無効な精製アクション」が含まれます。これらの問題に対処するには、合成を試みる前に無効なアクションを修正するために人間の介入が必要です。

ChemCrowは、プラットフォームから合成検証データを自律的に照会し、合成手順（溶媒量を増やすなど）を反復的に適応させることができるため、合成手順が完全に有効になるまで調整します。ActionCleaner機能はReactionExecuteツールに含まれており、人間の介入を必要としません。この例は、ChemCrowが標準化された合成手順を自律的に適応させ、成功裏に実行する能力を示しており、実験室の安全性に関する懸念を軽減し、ロボットプラットフォームの特定の条件に自身を適応させることができます。

人間とコンピューターとの相互作用は、化学の領域では特に有益な結果をもたらします。この領域では、決定はしばしば実験結果に基づいて行われ、実験の実行自体が挑戦的であることがあり、最先端の自律走行ラボの能力を超えることさえあります。ここでは、そのような相互作用が新しいクロモフォアの発見につながる方法を示します。

この例では、ChemCrowに、候補クロモフォアのライブラリーをスクリーニングするのを助けるために、機械学習モデルを訓練するよう指示されました。下図に示されているように、ChemCrowはデータの読み込み、クリーニング、処理、ランダムフォレストモデルの訓練と評価を行い、最終的には、与えられた目標吸収最大波長369nmとモデルに基づいて提案を提供する能力があります。

提案された分子はその後、合成され分析され、新しいクロモフォアの発見が確認されました。このクロモフォアは、ほぼ望ましい特性（測定された吸収最大波長336nm）を持っています。

また、化学分野では、機械学習の応用が拡大し、多くのデータセットやベンチマークが開発されています。しかし、これらのベンチマークはしばしば化学特有の課題を解決するための言語モデルの能力を正確に評価していません。このギャップを埋めるために、私たちは化学の専門家と協力し、化学的問題解決能力を測定するための新しいタスクセットを開発しています。

この新しいアプローチでは、ChemCrowとGPT-4（後者は化学の専門知識を模倣するよう設定）の両方が試され、その成果は専門家と機械学習モデル（EvaluatorGPT）による評価で検証されています。EvaluatorGPTは、解決策の適切さや思考プロセスの品質に基づいて、各解答に対して詳細なフィードバックとともに評価を行っています。

ChemCrowの実行の妥当性は、ツールの品質と推論プロセスに大きく依存しています。例えば、合成計画の能力は基礎となる合成エンジンの進化によって強化されますが、不適切な推論や入力が行われると、最良のツールも役立たずとなります。この点を踏まえ、化学の専門家たちは、化学の正確さ、推論の質、タスクの完了度を基準に各モデルを評価しています。

結果は下図のようになります。

より複雑なタスクでは、ChemCrowは化学的推論が求められる場面でツールを使用しないGPT-4を上回っています。一方で、GPT-4は流暢さと表面的な完全さで好印象を与えるものの、その情報の正確さには欠けることが明らかになっています。特に簡単なタスクでは、GPT-4はトレーニングデータに基づいた回答を提供することで優位に立つことがありますが、ChemCrowは様々な目的と難易度にわたって一貫して優れた解決策を提供し、化学の専門家からの支持を集めています。

さらに、人間とEvaluatorGPTによる評価の違いは注目に値します。専門家はChemCrowの回答を好み、高評価していますが、EvaluatorGPTはGPT-4の回答の流暢さと表面的な完全さに基づいて、平均してGPT-4を優れたモデルと評価しています。この結果は、言語モデルがプロンプトに対する理解が不足している場合、信頼性のある評価を提供することが困難であることを示唆しており、事実性が重要な役割を果たす評価では機械学習モデルの能力をベンチマークするのに適していないことを示しています。

この研究は、化学分野における機械学習の応用に関して、新たな評価方法の必要性を浮き彫りにし、化学的問題解決における言語モデルの能力を正確に評価するための可能性を広げています。

リスク戦略

ChemCrowのような大規模言語モデル駆動型の化学エンジンの導入と利用は、異なる専門家がデザインしたツールを組み合わせることで、非専門家の研究者をサポートする可能性を秘めています。これらの自動化プラットフォームは、人間のオペレーターや化学専門家による厳格なレビューを受けますが、大規模言語モデルエージェントの責任ある開発と利用を確実にすることが不可欠です。

世界的な安全基準では、化学実験室の利用は事前に研修等を受けた化学者に限定されています。しかし、大規模言語モデル駆動型の化学エンジンの推奨に基づく実験は、事故や危険な状況を招く可能性があります。そのため、下図に示されているように、ChemCrowは、問い合わせられた分子が既知の管理化学物質でないことやその他の安全情報を確認することにより、ハードコーディングされたガイドラインのセットに従います。そのような場合、実行は停止します。そうでない場合は、実行が進み、この情報はモデルによって再利用され、提案された物質の安全上の懸念や、それらを安全に扱う方法に関する根拠のある推奨を含むより完全な回答を提供するために使用されます。

また、安全情報の確認を含む安全指示を提供し、安全確認と専門家レビューシステムの統合を通じて、推奨事項が安全基準とプロトコルに沿っていることを保証しています。

大規模言語モデル駆動型の化学エンジンの化学に関する不十分な知識は、誤った意思決定や問題のある実験結果に繋がるリスクを生み出します。この問題を軽減するために、専門家がデザインしたツールの統合や、トレーニングデータの質と範囲の改善により、エンジンの化学概念理解を向上させます。

さらに、ユーザーには、提供された情報を批判的に評価し、確立された文献や専門家の意見と比較することを奨励しています。これにより、不完全な推論に依存するリスクがさらに軽減されます。

また、知的財産への取り組みも行なっています。ChemCrowのような生成AIモデルの責任ある開発と使用には、知的財産問題への対応が重要です。合成された化学構造や材料、その予測される用途、独自情報の潜在的侵害に関する明確なガイドラインとポリシーを確立する必要があります。法律専門家や業界のステークホルダーと協力することで、これらの問題に対処し、知的財産を保護する適切な措置を講じることが可能です。

ChemCrowの潜在的な欠点に対処し、安全かつ責任ある応用を保証することは、その成功に不可欠です。専門家によるツールの統合、トレーニングデータの改善、効果的な軽減戦略の実施により、リスクを最小限に抑えながら、化学分野への肯定的な影響を最大化することができます。技術の進化と共に、開発者、ユーザー、業界関係者の間での協力と警戒が、新たなリスクと課題への対応、そして大規模言語モデル駆動化学エンジンの領域での責任ある革新と進歩を促進することができます。

外部ツール

ChemCrowでは、大規模言語モデルとして、OpenAIのGPT-4を採用しています。さらに、LangChainを介して外部ツールを統合しています。この論文で利用している外部ツールは、必要性や利用可能性に応じて容易に拡張可能であり、「一般ツール」「分子ツール」「化学反応ツール」に分類されます。

まず、「WebSearch」ツールは、インターネット上の最新かつ関連性の高い情報を収集するために設計されています。これは、SerpAPIを利用して検索クエリを実行し、Google検索結果の最初のページから情報を抽出することで実現されます。このプロセスを通じて、言語モデルは科学的トピック全般にわたる最新の情報にアクセスできるようになります。

次に、「LitSearch」ツールは、科学文書からの情報抽出に特化しています。このツールは、科学論文などの文書を効率的に検索し、質問に対する正確で信頼性の高い回答を提供します。これは、OpenAIの埋め込み技術とFAISSベクトルデータベースを利用して文書を検索し、関連するパッセージの要約を作成することで実現されます。

また、「Python REPL」ツールは、Langchainの標準ツールとして、言語モデルに直接Pythonコードを書き、実行させる能力を提供します。これにより、数値計算からデータ分析、AIモデルのトレーニングまで、幅広いタスクが手軽に行えるようになります。

最後に、「Human」ツールは、言語モデルが直接人間と対話し、指示を受け取ることができるようにすることで、よりダイナミックな問題解決が可能になります。これは、特に困難な問題や不確実性が高い場合に、人間の直感や判断をプロセスに取り入れることを可能にします。

また、分子レベルでの分析と操作を可能にするツールも利用しています。これらのツールは、分子の識別から市場価格の評価、構造的類似性の分析まで、研究者が直面する様々な課題に対処することができます。

「Name2SMILES」ツールは、分子名やCAS番号をもとに、その分子のSMILES（Simplified Molecular Input Line Entry System）表現を迅速に取得します。これにより、カフェインやアトルバスタチンなどの一般的な名前、IUPAC名を含む様々な分子を簡単に参照し、分子分析や操作を行うことができます。データベースの検索は、主にchem-spaceを利用し、必要に応じてPubChemやOPSINを使用して補完されます。

「Name2CAS」ツールは、さまざまな分子表現（一般名、IUPAC名、SMILES文字列）を用いて、化学物質抄録サービス（CAS）番号を特定します。PubChemデータベースを活用して、分子を一意のCAS番号に変換し、研究者が関連情報に容易にアクセスできるようにします。

「SMILES2Price」ツールは、分子のSMILES表現を入力として受け、その分子の購入可能性と市場での最安価格を評価します。このプロセスは、molbloomを使用してZINC20データベース内の分子の購入可能性を確認し、chem-space APIを介して市場価格情報を提供します。このツールにより、研究者は経済的観点から最適な分子を選択することができます。

「分子間の類似性」ツールは、二つの分子の構造的類似性をTanimoto類似度を用いて評価します。ECFP2分子フィンガープリントに基づいて、分子間の類似性を定量化し、薬物発見や化学研究でのアナログの可能性を探る際に重要な指標を提供します。

「ModifyMol」ツールは、分子の周辺化学空間を探索し、構造的変更を加えることを目的としたツールです。このプロセスでは、合成の可能性を広げるために、レトロ合成およびフォワード合成の原則に従って50の医薬化学反応が利用されます。特に、SynSpaceパッケージを応用し、分子のSMILES表現から微細な変更を通じて修正された分子を導出します。

「PatentCheck」ツールは、分子が特許登録されているか否かを迅速に確認するツールです。molbloom87というC言語ライブラリを使用し、ブルームフィルターを介して分子の特許状況を評価します。このツールは、特に新規化合物の開発において、知的財産の衝突を避けるための重要なステップを提供し、研究者が安心して研究開発を進められるよう支援します。

「FuncGroups」ツールは、分子内の機能基を識別するために設計されたツールです。分子のSMILES表現を入力とし、事前定義されたSMARTSパターンを使用して機能基の存在を確認します。この分析により、分子の反応性や特性を理解する上で貴重な洞察を得ることができ、科学的研究や薬物発見の効率を高めます。

「SMILES2Weight」ツールは、分子のSMILES表現からその分子量を正確に計算するツールです。RDKitライブラリを使用して、入力されたSMILES文字列に基づく分子の分子量を導出します。この情報は、合成計画や物性評価の段階で重要な指標となり、分子設計の過程を支援します。

これらのツールは、分子の設計、分析、および評価プロセスを強化し、科学者がより迅速かつ効率的に情報に基づいた決定を行うための支援を提供します。

さらに、ChemCrowのようなツールの開発に関する最も顕著な問題の一つは安全性です。提案されているリスク軽減戦略の一つは、大規模言語モデルが提案した分子、反応、手順の潜在的なリスクを評価できるようにするツールを組み込むことです。安全性の高い研究環境を実現するため、私たちは以下の三つの安全ツールを導入してます。

「ControlledChemicalCheck」ツールは、化学兵器やその前駆体として認識されている物質を事前に識別するため、分子のCAS番号を用いて専門のリストと照合するツールです。この自動化されたチェック機能は、ユーザーが特定の分子の合成方法や実験をリクエストした際に動作し、該当する危険物質が検出されると、直ちにその操作を停止します。これにより、ユーザーは重要な安全情報を得ることができ、より安全な決定を下すことが可能になります。

「ExplosiveCheck」ツールは、分子が爆発性を持つかどうかをグローバルに調和されたシステム（GHS）に基づいて判断します。分子の一般名やIUPAC名、CAS番号を利用してPubChemデータベースを検索し、「爆発物」と評価された場合はその性質を確認します。合成方法のリクエスト時に自動的に呼び出され、必要に応じて警告やエラーメッセージを提供することで、ユーザーが安全に関する適切な判断を下せるようサポートします。

「SafetySummary」ツールは、あらゆる分子に関する包括的な安全概要を提供するこのツールは、運用安全性、GHS情報、環境リスク、社会的影響の四つの主要な側面を明らかにします。PubChemデータベースからの情報を基に、LLMがユーザーフレンドリーなインターフェースを通じて安全情報を総合的に提示します。情報が不足している場合でも、GPT-4がギャップを明示的に指摘しながら補完することで、ユーザーが完全かつ容易にアクセス可能な安全データを得られるように設計されています。

これらのツールを通じて、ChemCrowの安全性を高めています。さらに、化学反応を識別、予測、計画し、さらには実行に移すために「化学反応ツール」も利用しています。

NextMove Softwareの「NameRxn」ツールは、名前付き反応の広範なデータベースを活用して化学反応を識別し、分類します。反応式のSMILES形式を入力するだけで、反応名とその分類コードを得ることができ、これにより反応機構の理解や実験条件の最適化が容易になります。

IBM ResearchによるRXN4Chemistry APIを駆使する「ReactionPredict」ツールは、反応物から生成物を高精度に予測します。このツールは、化学反応と逆合成パスの予測に特化したトランスフォーマーモデルを用い、化学者が行う抽象的な推論を模倣します。

「ReactionPlanner」ツールは、複数ステップの合成プロセスを計画するためのツールです。RXN4Chemistry APIを基に、反応シーケンスを機械が解釈可能なアクションに変換し、これを自然言語に再翻訳します。目的の化合物を合成するための効率的な経路を設計する際に、このツールが重要な役割を果たします。

「ReactionExecute」は、ChemCrowを通じて、ロボティック化学ラボと直接連携し、計画された合成を物理的に実行します。このプロセスでは、合成計画のリクエストからロボットによる実行、さらには実行中のエラーや警告の適応までを行います。最終的には、ユーザーの許可を経て合成を開始し、成功時には確認のメッセージを返します。

これらのツールは、反応の理解から実験の実行まで、一連のプロセスを効率化します。

まとめ

この研究では、化学分野における計算ツールの統合を目的とした、新たな大規模言語モデル駆動型のフレームワークであるChemCrowの開発について紹介しています。大規模言語モデルの高度な推論能力と計算ツールから得られる専門的な化学知識を融合させることで、ChemCrowは物理世界との対話を可能にする化学関連の大規模言語モデルエージェントの先駆けとなります。

実際に、虫除け剤、有機触媒3種、目標特性を持つ新規色素のスクリーニングおよび合成など、複数の成果を達成しています。また、ChemCrowは、シンプルな薬物発見から複雑な物質の合成計画に至るまで、多岐にわたる化学課題を自律的に解決する能力を持ち、将来的にはChatGPTのような化学アシスタントとしての潜在力を秘めています。

選定されたツールの量と品質による現在の結果の制約にも関わらず、化学分野に限定されない広範なツールの可能性は膨大です。言語ベースのツールや画像処理ツールの取り入れにより、ChemCrowの機能は大きく拡張される可能性があります。さらに、選定された評価タスクには限界がありますが、今後の研究と開発によりこれらのタスクを拡張し、多様化することで、システムの真の可能性を引き出すことが可能です。

化学の専門家による評価では、化学的な事実性、推論力、および回答の完全性において、ChemCrowがGPT-4を凌駕していることが示されました。特に新規性の高いタスクやあまり知られていないタスクにおいて、ChemCrowの優位性は顕著です。一方で、大規模言語モデルによる評価ではGPT-4が好まれる傾向がありますが、化学推論におけるモデルの真の有効性を評価する上で、このような評価が人間の評価ほど信頼できるとは限りません。このギャップは、ChemCrowのようなシステムが複雑な実世界の化学問題を解決する際の独自の能力をより正確に評価する方法の改善の必要性を示しています。

評価プロセスには課題が存在しますが、実験デザインの改善により結果の信頼性を高めることができます。閉鎖型モデルの制約や、大規模な化学論理テストの困難性など、さまざまな課題がありますが、これらにもかかわらず、ChemCrowのようなシステムが化学研究室の貴重な助手として機能し、幅広い分野で化学タスクに対処する有望な能力と潜在性を示しています。

また、この論文で行われた実験は、GitHubからアクセス可能です。また、ChemCrowプラットフォームのオープンソースバージョンが公開されています。実験セットアップやChemCrowプラットフォームの詳細にアクセスし、自身のプロジェクトや研究に活用することができます。これにより、化学反応の予測、計画、実行に関する先進的な研究や開発がさらに促進されることが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。