最新AI論文をキャッチアップ

生物学研究の実験プロトコルを自動化する「BioPlanner」と「BIOPROTデータセット」

生物学研究の実験プロトコルを自動化する「BioPlanner」と「BIOPROTデータセット」

Large language models

3つの要点
✔️ 自動化されたアプローチ「BioPlanner」の開発:適切な行動セットを生成する教師モデルと、それを基にタスクを解決する生徒モデルの連携を通じて、言語モデルのプロトコル生成能力を評価。
✔️ 新しいデータセット「BIOPROT」の導入:Protocols.ioから公開されている生物学実験プロトコルを9,000以上収集、デルのパフォーマンスを様々なタスクで評価する基盤を提供。
✔️ GPT-3.5とGPT-4の性能を検証し、特にGPT-4のプロトコル生成能力の優位性を実証

BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology
written by Odhran O'Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud, Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques
(Submitted on 16 Oct 2023)
Comments: EMNLP 2023
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Robotics (cs.RO)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

生物学研究の現場では、従来の手法が時間を要し、労力を多く必要とし、人為的ミスが起こりやすいという課題があります。しかし、ロボティックスラボオートメーションの進化により、研究の正確性、再現性、そしてスケーラビリティが大きく向上し、科学的な突破口を開き、研究成果を実世界へと早く移行させることが可能になりつつあります。

その中で、研究の自動化における大きな進歩の一つとして、実験プロトコルの自動生成があります。これは、実験を正確に行い、特定の目標を達成するための詳細な手順を自動で作成し、それをロボットが理解できるコードに変換する技術です。特に、言語モデルの進歩は、科学プロトコルを正確に形成できる可能性があり、これは既に化学の分野で実証されています。

しかし、生成されたプロトコルの正確性を評価する明確な方法がこれまでになく、また、プロトコルが詳細情報に敏感であり、指示のわずかな変更が大きく異なる結果をもたらす可能性があります。さらに、同じプロトコルでも、表現の粒度が異なると正確性の評価が難しくなります。

この課題に対応するため、この論文では、生物学的プロトコルを書く能力を評価するために自動化されたアプローチ「BioPlanner」を開発しています。このアプローチは、ロボティックスプランニングからの着想を得ており、閉じた行動セットを用いて擬似コードによるプロトコルの自動変換を行なっています。このシステムでは、教師モデルが適切な行動セットを生成し、生徒モデルがゼロからタスクを解決することで、言語モデルのプロトコル生成能力を評価します。


さらに、「BIOPROT」という新しいデータセットを導入しています。これは、公開されている生物学実験プロトコルを収集したもので、自由テキストとプロトコル固有の擬似コードの両方の形式でガイドを提供しています。このデータセットは、モデルのパフォーマンスを複数の異なるタスクで評価することを可能にし、実験室での実験実施にも利用されています。

BIOPROTデータセット

ここでは、BIOPROTデータセットについて説明します。これは、公開されているプロトコルのコレクションです。生物学の幅広いトピックにわたって、プロトコル生成における大規模言語モデルのパフォーマンスを評価するために設されています。

このデータセットでは、Protocols.ioから、再現可能な方法を開発し、共有するための、9,000以上の多様な科学分野にわたるプロトコルを収集しています。これらのプロトコルには、タイトル、説明、そして詳細なステップバイステップのガイドが含まれています。生物学に関連し、再現可能で適切な難易度を持つプロトコルを選定しています。下表は、収集されたプロトコルの概要です。

自然言語では計画問題の評価が難しいため、GPT-4を用いてプロトコルを擬似コードに変換しています。概要は下図のようになります。この過程では、プロトコルを実行するために必要な擬似関数のセットを定義し、これらを用いてステップを擬似コードに変換しています。また、生成されたコードの妥当性を確認するために自動フィードバックループも利用しています。

さらに、生成された擬似関数と擬似コードを手動で検証し、その正確性も確認しています。このレビューは、優秀な実験室科学者たちによって、元のプロトコルが自然言語で意味を成すか、タイトルと説明が十分か、擬似コードが正確性かを評価されています。必要に応じて、擬似コードに編集が加えられています。下表は編集された内容の内訳です。

また、プロトコルの高品質な説明も生成しています。これはプロトコルのステップが含むべき内容の感覚を与えることを目的としています。Protocols.ioの説明は常に適しているわけではないため、データセットにこれらの説明を追加しています。

BIOPROTデータセットは、エラーチェックループを備えた言語モデルを利用して、人間の介入なしに正確な生物学プロトコルの擬似コードデータセットを作成する新しい方法を提案してます。この自己評価可能なアプローチは、生物学研究の未来に大きな影響を与えると考えられます。

指標と評価:科学プロトコル生成の新たな基準 

BIOPROTデータセットを利用して、大規模言語モデルが科学的プロトコルを理解し、生成する能力を、様々なタスクで評価しています。

まず、与えられたプロトコルのタイトル、説明、そして擬似関数のセットから、モデルがプロトコルの次のステップを正確に推測する能力を検証しています。ここでは、予測された関数とそれに対応する引数がどの程度正確かを測っています。

関数の正確性については、正しい関数が選択された割合を評価しています。引数の正確性に関しては、名前の正確さからBLEUスコアを用いて引数値の正確さまで、詳細に渡って評価しています。特に、科学領域に適したSciBERTエンコーダを使用したSciBERTスコアにより、引数値の類似度を測定しています。

また、より挑戦的なタスクとして、モデルに完全な擬似コードを生成させています。ここでは、正しい関数が選ばれ、かつ正しい順序で使用されているかを評価しています。関数が正しい順序で使用されているかの判断には、レーベンシュタイン距離を用いています。この距離は、関数呼び出しの順序をどれだけ正確に再現できているかを表します。

さらに、モデルが特定のプロトコルに必要なステップを正確に特定できるかどうかも評価しています。これにより、データセット内の既存プロトコルから新たなプロトコルを組み立てる可能性が示されています。このタスクでは、提供された関数の中で実際に必要なものをモデルがどれだけ正確に識別できるかを検証し、精度と再現率を測定しています。 

実験と結果の概要

GPT-3.5とGPT-4を用いて性能を検証しています。また、全プロトコルの説明にtext-embedding-ada-002エンベディングを用いて、詳細なエンベディングインデックスを作成し、そのプロセスと使用したプロンプトを、この論文の補足資料として記載しています。

この論文では、様々な設定でモデルの性能を評価しています。これには、関数を生成された順序またはランダムにシャッフルして提供する「シャッフル」と、未定義の関数やPythonの構文エラーを検出するエラーループにアクセスできる「フィードバック」という2つのアプローチがあります。特に、関数のシャッフルはタスクをより難しくし、フィードバックループは計画と推論の向上に寄与することがわかっています。

次のステップ予測における結果は下表のとおりです。GPT-4は、正しい次のステップを予測する能力においてGPT-3.5を一貫して上回っていますが、関数引数の予測ではGPT-3.5の方が優れていることがわかります。また、関数がシャッフルされた場合の性能低下が確認されています。

プロトコル生成における結果は下表のとおりです。レーベンシュタイン距離スコアにおいて、GPT-4はGPT-3.5に比べて著しく優れた性能を示しています。これは、正しい関数の選択能力は両モデルで似ているものの、GPT-4が関数を正しい順序で使用することに長けていることを示していると言えます。

関数の取得における結果は下表のとおりです。GPT-4はこのタスクでもGPT-3.5を上回っていますが、全体的な結果は期待に達していません。これは、正解が曖昧な場合があるため、性能が低下する一因となっている可能性があります。


また、GPT-4を活用して、擬似コードの正確性を評価しています。プロトコルの説明、許可された擬似関数、そして擬似コード(予測されたものと基底真実のもの)を比較することにより、モデルがどちらがプロトコル説明により適合するかを判断させています。結果は下表のようになっています。GPT-4が機械生成プロトコルと基底真実のプロトコルを識別することにわずかに成功していることを示していますが、この成果は、生成されたプロトコルの高い正確性か、あるいはGPT-4の区別能力の限界かによるものかは定かではありません。

また、プロトコル説明の詳細が不足している場合に備え、GPT-4を用いてプロトコルステップの簡潔な擬似説明を生成しています。このアプローチにより、次のステップの生成と完全なプロトコル生成の精度がわずかに向上しています。

さらに、BIOPROTデータセットが、正確で新しいプロトコルを生成するための有効なツールであることを証明するために、エンドツーエンドのプロトコル作成を試みています。ツールへのアクセスを持つ大規模言語モデルエージェントを用いて、関連する擬似関数を含むプロトコルを検索し、新しい擬似コードを生成するアプローチを採用しています。E.coliを用いたプロトコルは、実験室での実装と検証を経て成功しています。これは、-80°Cでの長期保存後も細胞が生存し続けることを示す栄養寒天での培養によって証明されています。

この一連の実験は、BIOPROTデータセットを用いた研究の新たな地平を開き、実験室プロトコルの自動生成に向けた可能性を広げるものと期待されます。

まとめ

この論文では、実験科学におけるオープンエンドの計画問題に対応するために、大規模言語モデルの自動評価方法「BioPlanner」と生物学実験プロトコルで構成されたデータセット「BIOPROT」を提案しています。また、オープンエンドの計画問題に関するタスクにおいて、GPT-3.5とGPT-4で性能を評価した結果、まだ改善の余地があることがわかりました。しかし、この論文で提案されているデータセットとフレームワークを活用して、大規模言語モデルが生成したプロトコルが実験室で上手く実行される事例も見られています。

また、この研究にはいくつかの制限があります。1つは、コストの問題です。GPT-3.5とGPT-4はオープンソースではなく、大規模な実験には高額なコストがかかります。また、この論文は、生物学のみに焦点を当てています。しかし、化学や材料科学など他の科学分野への応用できると考えられます。さらに、提案しているフレームワークとデータセットが有害な化合物の合成に悪用されるリスクがあります。そのため、この論文では、BIOPROTにはそのような目的に悪用されるようなプロトコルが含まれないよう配慮されています。

この論文は、将来的には、出力のプログラムによる評価と有害物質生成の検出を容易にする擬似関数の使用により、リスクを最小限に抑えることを目指すとしています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする