自律設計から実行までマルチ大規模言語モデルによる科学実験の自動化

Large language models 2024年06月24日

3つの要点
✔️ 科学実験を自律的に設計、実行し、高品質のコードを生成するAIエージェントシステムを開発
✔️ この強力なツールの倫理的かつ責任ある使用を強調し、誤用に伴うリスクを緩和する必要性に言及
✔️ ハードウェア、APIドキュメントの明瞭化や、ソフトウェアの普及を制限する技術的課題にも言及

Emergent autonomous scientific research capabilities of large language models
written by Daniil A. Boiko, Robert MacKnight, Gabe Gomes
(Submitted on 11 Apr 2023)
Comments: Published on arxiv.
Subjects: Chemical Physics (physics.chem-ph); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、大規模言語モデルの進歩は目覚ましく、特にトランスフォーマーベースのモデルが注目されています。これらは、自然言語処理から生物学、化学研究、さらにはコード生成に至るまで、多岐にわたる分野で成功を収めています。OpenAIが行ったモデルの大規模なスケーリングは、特にこの分野における大きな進歩となっています。加えて、人間のフィードバックから学ぶ強化学習（RLHF）などの技術が、生成テキストの品質向上や、より多様なタスクへの対応、意思決定の理論化能力の強化に貢献しています。

2023年3月14日には、これまでで最も高性能なLLM、GPT-4がOpenAIからリリースされました。その学習方法や使用されたデータの詳細は多くが未公開ですが、GPT-4はSATやBAR試験、LeetCodeの課題解決、さらには画像からの文脈的説明（ニッチなジョークを含む）で高いパフォーマンスを示すなど、その卓越した問題解決能力を証明しています。また、化学問題にどのように対応可能であるかという実例も報告されています。

これらの結果を受けて、この論文では複雑な科学実験を自律的に設計、計画、実行できるマルチ大規模言語モデルベースのインテリジェントエージェント（以下、エージェント）を開発しています。エージェントは、インターネット検索、関連文書の閲覧、ロボティック実験APIの使用、さらには他の大規模言語モデルを利用して様々なタスクを遂行できます。この論文では、広範囲なハードウェア文書の効率的な検索とナビゲーション、液体処理機器の正確な制御、そして複数のハードウェアモジュールの同時利用や多様なデータソースの統合を必要とする複雑な問題への取り組みを通じて、エージェントの多様性と効率の高さを示しています。

エージェントの概要

この論文で開発したエージェントは、その革新的なアーキテクチャと複数のモジュールを通じて、科学実験の自律設計、計画、そして実行を可能にします。このシステムは、「プランナー」という中心的な部分を核として、4つの主要なコンポーネントで構成されています。

プランナーは、入力されたプロンプト（例えば「複数の鈴木反応を実行する」）に基づいて行動を起こし、この指示に応じた一連のアクションを実行します。これらのアクションには、インターネットでの情報検索、Pythonでの計算実行、関連文書へのアクセス、そして最終的な実験実行が含まれます。これらは、クラウドラボの使用、液体処理装置の操作、または手動での実験指示を含む、多岐にわたる環境で実行されます。

エージェントはタスクに必要な情報を集め、計算を行い、適切な反応を実行するように設計されています。要求されたタスクを完全に理解するためには、平均して10ステップが必要であると認識しており、提供される情報が十分に詳細であれば、追加の質問をする必要はありません。

ウェブ検索コンポーネントは、プランナーからのクエリを受け取り、適切なウェブ検索クエリに変換してGoogle Search APIを介して検索を実行します。結果として得られたウェブページは精査され、有益な情報を抽出してプランナーに提供します。この段階では、速度と精度のバランスからGPT-3.5が活用されることがあります。

ドキュメント検索コンポーネントは、ハードウェア関連の文書を検索し、最も関連性の高い情報を抽出します。このプロセスは、実験に不可欠な特定の機能パラメータやAPIの構文情報を提供することに重点を置いています。

コード実行コンポーネントは、分離されたDockerコンテナ内でコードを安全に実行し、予期せぬ行動からエンドホストマシンを保護します。また、オートメーションコンポーネントは、生成されたコードを実際のハードウェア上で実行するか、手動実験のための手順を提供します。

実験

この論文では、エージェントの性能を示す一例として、イブプロフェンの合成をしています。シンプルなプロンプト「イブプロフェンを合成せよ」という指示からスタートし、エージェントはインターネット上で必要な情報を探し出し、イブプロフェンの合成法について特定のウェブサイトから詳細を集めています。このプロセスで、エージェントは合成の初段階として、イソブチルベンゼンと酢酸無水物を塩化アルミニウムで触媒するフリーデル・クラフツ反応を正確に特定しています。

また、イブプロフェンの例だけでなく、エージェントはアスピリンやアスパルテームの合成計画を効率良く立案し、実行することも可能です。たとえ初期の合成結果に問題があったとしても、適切な合成例を提供することで修正が可能です。さらに、スズキ反応においては、エージェントが基質と生成物を正確に識別しています。

ただし、特定の触媒や基を提案する際、高温度パラメータを用いたテキスト生成では不安定性が見られることもあります。これを解決するため、ReaxysやSciFinderなどの化学反応データベースにエージェントをAPI経由で接続することで、システムのパフォーマンスと精度が飛躍的に向上しています。また、システムが過去に出した発言の分析も、精度向上に繋がる重要な手法です。

また、現在の技術環境では、高度な推論能力を備えたインテリジェントエージェントとソフトウェアを組み合わせることがますます求められています。この挑戦の鍵は、複雑なハードウェアAPI文書を明瞭かつ簡潔に提示することにあります。現代ソフトウェアの特徴である多様なコンポーネント間の複雑な相互作用を理解し、効果的に利用するためには、包括的なソフトウェア文書が不可欠です。しかし、これらの文書はしばしば高度な技術用語で書かれており、非専門家にとって理解が難しいことがあります。これが新たなユーザーの参入障壁となり、ソフトウェアの普及と効果を制限しています。

ここで、大規模言語モデルの力を借りることが解決策として検討されます。非専門家でもアクセスしやすい形でソフトウェア文書を自然言語で生成することができれば、この障壁を克服できる可能性があります。例えば、Opentrons Python APIのような、アプリケーションプログラミングインターフェイス(API)に関する広範な情報が含まれたテキストコーパスを基に訓練されたモデルは、API使用時のエージェントの精度を向上させる可能性を秘めています。

この目的のために、OT-2 API文書全体にわたってOpenAIのadaエンベッディングを生成し、クエリに対する相互参照と類似性を計算しています。エージェントには、APIの適切な使用方法について、必要に応じて「Documentationアクション」を使って問い合わせるよう指示します。クエリに基づいてadaエンベッディングが生成され、距離ベースのベクター検索を通じて適切な文書セクションが選択されます。このプロセスは、化学反応を実行するために必要なヒーターシェーカーハードウェアモジュールに関する情報をエージェントに提供する上で重要な役割を果たしています。

エメラルドクラウドラボ（ECL）のような多様なロボティックプラットフォームへのこのアプローチの適用は、新たな課題を提示します。しかし、この論文では、GPT-4モデルにとって未知の領域であるECLのシンボリックラボ言語（SLL）に関する情報を提供することの有効性を探ることができています。この目的のために、実験を実行するためにECLが提供する機能全体に関するガイドをエージェントに提供しています。

これを証明する例として、ユーザーが提出したクエリに対するエージェントの反応を示す3つのケースが上図です。各ケースにおいて、エージェントはタスクを遂行するために必要な関数を正確に特定しています。関数が選ばれると、その生テキスト文書は、コードの構文を保持し要約するために別のGPT-4モデルで処理されます。このモデルは特に、与えられた関数に対する様々なオプション、機器、パラメータに関する情報を効率的に保持することに長けています。文書が完全に処理されると、モデルは指定された関数を使用したコードブロックを生成し、それをプランナーに戻すよう求められます。このプロセスは、エージェントが特定のオプション、機器、パラメータを活用して関数を用いるための基盤となります。これにより、技術的な障壁を低減し、ユーザーがより簡単に高度な実験を設計し実行できるようにすることが目指してます。

また、自動化技術の進歩により、自然言語で指令を出すことによって複数の機器を制御できるマルチインストゥルメントシステムの開発が可能になっています。物理世界で実験を行う上で、エージェントに適切な情報を提供することは極めて重要です。この目的を果たすため、この論文ではPython APIが充実しているオープンソースの液体ハンドラーを選択し、その「Getting Started」ページをシステムのプランナーに提供しています。また、「ハードウェアAPI文書の提供」セクションで説明された方法を用いて、追加のページ情報をベクトル化しましたが、このプロセスではインターネットへのアクセスは行われません。

この実験は、ロボット操作に関する基本的な試みから始めています。特に、マイクロプレート全体を一つの単位として扱う能力が求められました。「選択した色で一列おきに塗る」というような、自然言語によるシンプルな指示が、ほとんどの場合で正確なプロトコルに結びついています。これらのプロトコルは、ロボットによって実行された際、要求された指示に密接に沿っています。

エージェントの初めのタスクは、原液の小さなサンプルを準備することでした。次に、UV-Vis測定の実施を要求し、測定完了後、マイクロプレートの各ウェルのスペクトルデータが含まれるNumPy配列のファイル名を受け取りました。エージェントはこのデータを活用して、最大吸収波長を識別するPythonコードを作成し、問題を的確に解決しました。この一連のプロセスは、自然言語を用いて精密な実験操作を実現するための新たな可能性を示しています。

これまでに行われた実験では、エージェントが持つモジュールの既存の知識が影響を及ぼす可能性がありました。そこで、インターネットから得たデータを基に必要な計算を行い、液体ハンドラー用のコードを最終的に記述することで、エージェントが実験計画を立てる能力を検証しています。課題をより複雑にするために、GPT-4のトレーニングデータの収集終了後にリリースされたヒーターシェーカーモジュールの使用をエージェントに依頼しています。これらの要件はエージェントの設定に組み込まれています。

設計された問題では、エージェントには2つのマイクロプレートを装備した液体ハンドラーが与えられています。ソースプレートには、フェニルアセチレン、フェニルボロン酸、複数のアリールハライド結合パートナー、2種類の触媒と塩基、そしてサンプルを溶解する溶媒が含まれています。目標プレートはヒーターシェーカーモジュールに設置されています。エージェントの目標は、スズキ反応とソノガシラ反応を行うプロトコルを設計することです。

エージェントは、求められた反応とその条件についてインターネットで情報を検索し始めます。それは、対応する反応に適した結合パートナーを選択します。スズキ反応にはブロモベンゼン、ソノガシラ反応にはヨウ化ベンゼンが選ばれましたが、これは実行ごとに変わります。これは、モデルが実験を複数回実行して、その推論を分析し、より大きな全体像を構築する将来の使用例を示唆しています。

モデルは、クロスカップリング反応におけるより効率的で現代的なアプローチとしてPd/NHC触媒を選択し、トリエチルアミンを塩基として選んでいます。エージェントは次に、全反応物の必要量を計算し、プロトコルを記述します。ただし、誤ったヒーターシェーカーモジュール名を使用したため、モデルは文書を参照し、その情報をもとにプロトコルを修正し、成功しています。その結果のGC-MS分析により、両反応の目的製品が生成されたことが確認しています。

まとめ

この論文では、複雑な科学実験を自律的に設計し、計画し、実行することができる知能エージェントシステムを紹介しています。このシステムは、優れた推論力と実験設計能力を示し、複雑な問題に効果的に対処し、高品質のコードを生成することができます。しかし、新しい機械学習システムや科学実験の自動化手法の開発は、違法活動やセキュリティ上の脅威の増大といった安全性や二重使用の懸念を引き起こします。これらの強力なツールの倫理的かつ責任ある使用を確保することで、科学研究の進展における大規模言語モデルの潜在能力を探求し続ける一方で、誤用に伴うリスクを緩和することができます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。