最新AI論文をキャッチアップ

LLMとロボティクスによる実験プロセスの全自動システム「GPT-Lab」

LLMとロボティクスによる実験プロセスの全自動システム「GPT-Lab」

Large language models

3つの要点
✔️ 大規模言語モデルによって、実験設計、実施、最適化をロボットが自動で行う「GPT-Lab」を開発
✔️ 大規模言語モデルによって、文献から必要な情報を抽出し、実験プロトコルの設計精度を大幅に向上
✔️ GPT-Labで開発された新型相対湿度(RH)色素センサーでは、高い精度でRHを予測し、システムの有効性を立証

GPT-Lab: Next Generation Of Optimal Chemistry Discovery By GPT Driven Robotic Lab
written by Xiaokai Qin, Mingda Song, Yangguan Chen, Zhehong Ai, Jing Jiang
(Submitted on 15 Sep 2023)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Robotics (cs.RO)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

自律型実験室(self-driven laboratory、SDL)が注目されている今、科学の最前線では、ロボティクスと先進アルゴリズムを組み合わせて、材料科学、化学合成、生物学、医学などの様々な分野で新たな可能性を切り拓いています。自律型実験室(SDL)は、実験の設計から実施、さらには最適化までをロボットが自動で行うことで、高品質なデータを大規模に生成し、研究開発を加速させています。この技術は、特に、新しい材料や医薬品の開発において、優れた成果を挙げていますが、依然として研究者の高い専門性と経験が必要な領域も残っています。

そこで注目されているのが、テキストマイニングです。自然言語処理(NLP)を活用することで、研究者が必要とする情報を文献から抽出し、研究の効率化を図る試みが進んでいます。中でも、GPT-4のような大規模言語モデルの登場は、文献マイニングや実験プロトコル設計の精度を大幅に向上させ、わずかな学習データで驚くべき成果を達成しています。

カーネギーメロン大学の研究者たちは、GPTを活用して科学研究を支援する方法を示し、Opentrons APIを用いた実験設計の自動化に成功しました。この成果は、自律型実験室(SDL)のさらなる発展に向けた大きな一歩と言えます。しかし、新しい試薬や材料の発見に必要な広範な文献調査の自動化は、まだ改善の余地があります。この課題を乗り越えることができれば、研究開発のプロセスはさらに加速することが期待されます。

このような背景から、この論文では「ARMFE(Analysis - Retrieval - Mining - Feedback - Execution)」というGPTで強化した自律型実験室(SDL)のパイプラインを有する「GPT-Lab」を開発しています。このパイプラインは、GPT-4ベースのエージェントを利用して、研究開発プロセスを迅速かつ正確に進めることができます。この論文では、このパイプラインを使用して、新しいタイプの相対湿度(RH)を検出する色素センサーの開発に成功しています。このセンサーは、高い精度で相対湿度(RH)を予測することができ、ARMFEの有効性を示しています。

この成果は、最小限の人間の介入で、独立した研究開発を行うことができるロボットの実現に向けた大きな一歩と言えます。自律型実験室の進化はまだ始まったばかりであり、これからも様々な発見と革新が期待されます。

GPT-Labの概要

GPT-Labは、2つのコンポーネントで成り立っています。1つは、GPTフレームワークに基づく自動化された実験設計エージェントです。そして、もう1つは、アルゴリズムによって駆動されるロボティクス実験プラットフォームです。これらが協力して、実験の準備から成果までの全過程を自動で結びつけるシステムを構築しています。

そして、この一連のフローを「ARMFE(Analysis - Retrieval - Mining - Feedback - Execution)」を呼んでいます。下図は、このワークフローの概要です。エージェントは「要件分析(Analysis)」「文献取得(Retrieval)」「テキストマイニング(Mining)」「研究者からのフィードバック(Feedback)」「実験実施(Execution)」という5つのステップで構成されています。


要件分析(Analysisでは、研究者がエージェントに具体的な実験要求を提示します。ChatGPT APIを用いて、研究者によって提示された要求から文献検索に必要な5つのキーワードを抽出します。要求が不明確な場合は、エージェントが研究者に質問をして、必要な手法や情報を明らかにします。

文献取得(Retrieval)では、キーワードを取得したエージェントが、オンラインで検索を行い、関連する記事やその概要を集めます。ChatGPT APIを再利用して、これらの情報からより関連性の高い文書を選別し、分析のための完全な記事を入手します。

テキストマイニング(Mining)では、GPTを活用して記事の内容を理解し、実験に使用された物質やその役割に関する情報を抽出します。この情報は、JSON形式で整理され、後の処理のために保存されます。

研究者からのフィードバック(Feedback)では、GPT-LabがJSONから抽出した情報を研究者に提示します。研究者はこの情報をもとに、使用する実験物質を選択し、エージェントに通知します。エージェントはこのフィードバックをもとに、実験パラメータをJSON形式で構築し、ロボティック実験プラットフォームに送信します。

実験実施(Execution)では、ロボティクス実験プラットフォームが、エージェントから受け取ったパラメータにもとづき、液体の調合やそれに続く実験を実行します。GPTによって設計された研究エージェントが提案する材料の設計空間にもとづいて行われます。実験に必要な物質のCASコードや濃度値を含むファイルがロボティクス実験プラットフォームに送られ、実際の実験が行われます。

実験:エージェントによる記事マイニング

GPT-Labの進化は、科学的研究の方法論を大きく変革しています。GPT-Labのエージェントは、1時間に平均100件の研究記事を処理する能力を持ち、マルチスレッド技術を駆使することで、この速度を3倍から5倍に高めることができます。これは、従来の手動での文献抽出と比較して100倍以上の時間を節約することがきます。また、このシステムは、研究テーマに関連する潜在的な試薬を網羅的に分析し、人間の研究者が苦手とする超高次元変数の要約も難なくこなすことがきます。

分析した500件の記事からは、50の潜在的な試薬が特定され、その中から関連スコアが80%以上の18の試薬が選ばれてています。これには、8つの主要材料候補が含まれ、システムはこれらの実験的役割や使用目的、出典、関連性の根拠を明確にしています。これらの情報は研究者に提供され、専門知識と実験ニーズに基づいた選択を行うことを支援しています。下図はエージェントとの会話の例です。

GPT単体と比較して、このシステムはより高い精度と実現可能性を示しています。GPTが提供する物質の多くは、後続のロボット実験の条件を満たしていないことが多いものの、GPT-Labが提供する物質の多くは、皇族の実験設定に適しており、実現可能であることが示されています。

さらに、このアプローチの多様性を証明するために、湿度センサー材料の発見を超えた応用を探索しています。ペロブスカイト太陽電池の重要なマテリアルの検索から、桑の葉に含まれるアルカロイド含有量の検出方法の発見まで、幅広い分野での応用が可能であることが示されています。これらの探求を通じて、単一の応用ドメインに留まらず、多様な材料や方法の発見に適用可能であることが確認されています。

実験:ロボットによる実験実施

選ばれた試薬は、着色剤、添加剤、溶剤の3つのグループに分けられます。着色剤には、塩化コバルト(CoCl2)、ヨウ化ニッケル(NiI2)、ブロミドニッケル(NiBr2)があり、添加剤には、塩化カルシウム(CaCl2)、四メチルアンモニウムヨウ化物(TMAI)、ポリエチレングリコール(PEG)、エチルセルロース(EC)が選ばれ、溶剤には、イソプロパノール(IPA)が選ばれています。具体的な実験では、各試薬の量が変数とみなされ、合わせて8つの変数が存在しています。全体量が一定であるため、最初の7つの試薬の量を定めると、最後の試薬の量が自動的に決まり、7次元の変数空間が存在することになります。

実験の実施は、既に報告されているDBTMプロセスと密接に関連しています。このプロセスは、効率的なアルゴリズム誘導プロセスであり、ロボティクス実験プラットフォーム上で実装されています。概要は下図のとおりです。

(a)は液体処理ワークステーションの概略図が示しており、最先端の技術を駆使した研究の場を提供します。(b)は、液体処理ワークステーションの機能モジュールで、、原液エリア、ピペットチップエリア、レシピ設定エリア、センシングユニット製造エリアなど、複数の機能モジュールを備えており、研究の効率性と正確性を高めます。(c)は、センシングユニットの画像で、各色のドットがガス感知ユニットを表し、その色はコンピュータビジョンアルゴリズムによって特定されます。これにより、ガス感知能力の高度な分析が可能になります。(d)は、ガス経路の概要図で、 窒素(N2)フローは、乾燥器と加湿器を通過する2つの経路に分割され、二つの質量流量コントローラー(MFC)によって制御されます。これにより、ガス感知ユニットのテストのために、様々な相対湿度(RH)を実現します。(e)は、ガステスト設定で、暗室、光源、カメラ、ガス室を含む設定で行われます。ガス感知ユニットは、均一な光条件を提供する暗室と光源によって形成された、透明な上部室内に配置されます。カメラは、異なる環境下での色変化を詳細に記録し、研究者が精密なデータを収集することを可能にします。

ユーザーの要望に応じて、パラメータを調整することで迅速に最適なレシピが見つかります。具体的には「レシピの生成 - ロボットによる準備 - ロボットによるテスト - データの処理 - 次のレシピの生成」というサイクルを経ます。

ロボット装置は液体処理機と自作の暗室から構成されています。準備工程は液体処理機で行われ、テストは暗室で実施されます。テストでは、ガス室に固定されたサンプルに対して、異なる湿度の窒素ガスを流します。カメラが一貫した照明条件下で色の変化を連続記録し、色と時間の関係を示す曲線を作成します。この曲線から、色の変化幅、反応時間、可逆性、感度などの指標が算出されます。これらの指標は総合的に評価され、最終スコアが導き出されます。この反復プロセスはベイジアン最適化アルゴリズムにより指導され、次のサンプル選択が不確実性が高いか、スコア改善の可能性が高い方向に導かれます。実際の実験では、1回のバッチで96サンプルが収集されます。初回の96のレシピはランダムに生成された後、続くラウンドのレシピはベイズ戦略を用いて作成されます。各ラウンドは、探索と利用の傾向を含みます。

異なる実験バッチでのサンプルスコアの分布は、下図(a)で示されています。ラウンド数が増えるにつれ、各ラウンドの最高スコアは徐々に上昇します。第3ラウンドからは、多くのサンプルが0スコア範囲に集中し始めるという現象が見られています。これは、局所最適解に陥るのを避けるための意図的な探索への傾向の結果と考えられます。しかし、この探索的傾向の影響を受けたレシピは、不確実性が高く、極端な値を示しやすく、結果としてスコアが低くなる傾向にあります。5ラウンドの実験と480サンプルの蓄積後、最高スコアの増加は著しくなくなりました。また、第5ラウンドのスコア分布はより広がっており、より多くのサンプルが高スコアを達成しており、これらのスコアが前ラウンドに比べて0に近づいていることがわかります。これは、高い不確実性の中で優れたレシピを見つけるのが難しく、現在の最適レシピが準グローバル最適解に近づいていることを示唆しています。

上図(b)では、5回の反復ラウンドごとに96のレシピで使用された各物質の総使用量が示されています。最初のラウンドではレシピがランダムに生成されたため、特定のレシピ内で各物質の比率が大きく異なる場合がありますが、総比率は類似しています。反復が進むにつれ、CoCl2の使用量は全体的に増加傾向にあり、CaCl2、NiBr2、TMAIの使用量は全体的に減少傾向にあり、徐々に排除されていきました。この傾向は、CoCl2を多く含むレシピがより良い結果をもたらす可能性があり、CaCl2、NiBr2、TMAIは限定的または逆効果があることを示唆しています。

また、選択された2つのレシピが上図(c)で示され、これらはNiBr2とTMAIを除外しています。レシピ1はNiI2を少量含み、レシピ2は低湿度と高湿度条件に対する感度を高めるためにCaCl2を少量含んでいます。これら2つのレシピからなるアレイの相対湿度(RH)に対する予測精度は、上図(d)で示されているように、室温でのRH5%から95%までを正確に量定し、平均二乗誤差(RMSE)は2.68%となっています。

まとめ

GPT-Labは、主に3つの重要な取り組みに取り組んでいます。第1に、実験設計におけるGPTの優れた性能を達成しています。第2に、実験の提案から具体的な成果に至るまでの自動化されたプロセスの可能性を示しています。そして、第3に、コンピュータサイエンスの専門知識を持たない化学者が、実験にロボティクス実験プラットフォームを効果的に活用し、実験効率を飛躍的に向上さしています。実際に、少ない人的介入で1週間以内に構築された色素湿度センサーは、室温で5〜95%の相対湿度を2.68%の誤差で予測しています。

しかし、この実験プロセスを通じて、いくつかの課題も見えています。GPTの知能には限界があり、出力の不正確さが問題となることがあります。誤った反応が発生した場合、エージェントの堅牢性を確保するためにはプログラムによる検証と再試行が必要になり、これがGPT利用のコストを増加させています。また、GPT-Labが文献レビューや実験作業を省略することで研究者の時間を節約することができるものの、露出された文献以外のドメイン固有の知識を獲得する能力には限界があります。つまり、研究者は実験パラメータを手動でフィルタリングする必要があります。

解決策として、豊富な化学知識を持つより大きなモデルの学習、または知識グラフや広範囲なデータセットでのファインチューニングを通じて、GPTの知識範囲を拡大することが考えられます。より大規模なモデルの開発が進むにつれ、化学研究の領域はより効率的で合理化されたものになると期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする