「BioinspiredLLM」大規模言語モデルを活用した生物学的材料研究の革新

Large language models 2024年05月24日

3つの要点
✔️ 生物に触発された材料設計の革命：生物学的材料設計の研究を加速させる新たな大規模言語モデル「BioinspiredLLM」を提案。
✔️ BioinspiredLLMのテキストマイニングとデータクリーニング能力：BioinspiredLLMは、Q-A処理蒸留技術を用いてテキストやデータのマイニングとクリーニングを実施。形式的な文章からリアルな対話を生成し、テキストフラグメントを大幅に削減。
✔️ 生成型AIとの協力による効率的な材料の設計と開発：BioinspiredLLMは、他の生成型AIモデルと協働が可能。この新しい生成型AI協力エージェントフレームワークによって、生物に触発された材料の設計と開発に必要な時間とリソースを大幅に削減。

BioinspiredLLM: Conversational Large Language Model for the Mechanics of Biological and Bio-inspired Materials
written by Rachel K. Luu, Markus J. Buehler
(Submitted on Submitted on 15 Sep 2023 (v1), last revised 11 Dec 2023 (this version, v2))
Comments: Published on arxiv.
Subjects: Materials Science (cond-mat.mtrl-sci); Disordered Systems and Neural Networks (cond-mat.dis-nn); Soft Condensed Matter (cond-mat.soft); Machine Learning (cs.LG); Adaptation and Self-Organizing Systems (nlin.AO)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

材料科学、生物学、そしてエンジニアリングの複合分野には、長い間、大きな可能性が秘められています。生物学的な構造からインスピレーションを得た材料は、その階層的な構造と特性の関係により、持続可能で高性能な新材料の設計に革命をもたらすことが期待されています。アルマジロの殻から竹、ココナッツの殻に至るまで、自然界の素材には、人間がまだ十分に活用していない無限の可能性があります。しかし、これらの知識が生物学的な研究から、実際のエンジニアリング応用への移行は、まだ始まったばかりです。

現在、環境問題への対応として、自然に学ぶことの重要性が再認識されています。こうした中で、材料情報学の進展は、生物に触発された解決策の開発を加速させる新たな機会を提供しています。特に、大規模言語モデルのような人工知能技術は、この分野の研究を大きく前進させる可能性を秘めています。これらのモデルは、広範なテキストデータを基に学習し、特定の科学的領域での知識の微調整を行うことで、元のモデルを超える成果を出しています。

さらに、自然界の複雑な構造を理解し、それを材料設計に応用するためには、異なる知識領域を翻訳し、つなげることが必要です。生物材料に関する知識は、化学化合物やタンパク質シーケンスなどよりも、一般的に広範囲に及んでいます。しかし、自然界の材料は、その構造や特性を一元的に記述する標準化された方法を持ちません。この点で、自己回帰型の大規模言語モデルは、膨大な文献を合成し、材料の発見と設計プロセスを助ける新たなアプローチを提供する可能性があります。

生物材料を生かした大規模言語モデルの専門化は、生物にインスパイアされた材料の研究と発見を加速するための有望な一歩です。自然から学び、その知識を応用することで、持続可能な未来への道を切り拓くことが期待されます。

BioinspiredLLMの概要

この論文では、オープンソースの会話型大規模言語モデルである「Llama-2-13b-chat」をベースモデルに選択しています。また、このモデルをファインチューニングすることで、推論能力を強化した「Orca-2-13b」が開発されています。Orca-2-13bには、構造生物学的材料を専門とする1000以上の記事を含むコーパスが用いられています。下図はコーパスに利用された出版社と出版年を表しています。

Elsevier、Wiley、Springer Nature、American Chemical Societyといった出版社が多くの記事が含まれていることがわかります。

そして、モデルの学習には2つの方法が採用されています。1つ目は、テキストをそのままの形で使用し、標準的なトークン長でデータを生成する方法です。2つ目は「Q-A処理」と呼ばれるもので、これはファインチューニングされていないオリジナルのLlama-2-13b-chatモデルを使用して、テキストの内容をさらに精密に処理・クリーニングし、質問と回答のペアで重要な洞察を抽出する手法です。

2つの異なる方法でモデルのファインチューニングを行いましたが、、従来の非Q-A処理を使用したモデルは、望ましくない情報の残留が多いことがわかりました。そのため、この論文では、Q-A処理手法を適用しています。

この論文では、上述の「Llama-2-13b-chat」と「Orca-2-13b」の両モデルに対して、Q-A処理を適用した結果、特にOrca-2-13bモデルが顕著な性能向上を見せたため、このモデルを「BioinspiredLLM」としています。また、比較のために、ファインチューンされたLlama-2-13b-chatモデルは「Llama-BioLLM」としています。

下図はBioinspiredLLMアーキテクチャの全体概要を示しています。これは、自己回帰トランスフォーマーモデルを基盤とし、システムのプロンプトからユーザーのクエリに至るまで、そしてそれに基づく応答の生成にいたるまでプロセスを図示したものです。

また、この論文では、BioinspiredLLMの性能を評価するため、Brodnik et al.によって提案されたフレームワークに基づき、厳選されたクエリを用意しています。これらのクエリは、モデルが直面する可能性のある3つの主要なタスクをカバーしています。

1つ目は「知識リコール（Knowledge Recall）」タスクです。これはモデルが文書化された生物材料に関する情報をどれだけ迅速かつ正確に提供できるかが試されます。2つ目は「仮説生成（Hypothesis Generation）」タスクです。これはモデルが生物材料研究に関する新たな洞察やアイデアをどのように生み出すか、実験計画、被験者選択、応用分野などを含めて評価されます。3つ目は「アシスタント（Generative AI Collaboration）」タスクです。これは研究者が直面する様々な個別の課題、例えばプロンプトエンジニアリングやクラスタリングなどに対し、モデルがどれだけ効果的に支援できるかを検証します。

これらの評価を通じて、BioinspiredLLMが持つ、科学的研究という複雑な領域における潜在能力と応用可能性を明らかにしています。この記事では、特に「仮説生成（Hypothesis Generation）」タスクと「アシスタント（Generative AI Collaboration）」タスクに触れています。

仮説生成

BioinspiredLLMは、科学的な創造性のエンジンとしても機能しています。このモデルは、これまでに見たことがない主題についても質問に答え、新しい予測や仮説を提案して研究者を導くことができます。たとえば、ユーザーは文献で明示的に研究されていない主題について実験することに関してモデルに尋ねることができます。

この例では、ユーザーはユーカリのガムナッツについて研究することについて質問しています。これは、ユーカリの木に生育する小さな木質の器官で、検索によると以前に文献で明示的に研究されたことがないようです。ここで、BioinspiredLLMは、事前学習からの一般知識と、ファインチューニングデータセットからの生物材料とその特性評価に関する知識を統合します。BioinspiredLLMは、事前学習を頼りにユーカリのガムナッツを認識し、その後、ファインチューニングに含まれる植物材料の特性評価に関する記事に基づいた実験的な提案を行います。これには、水分吸収と生物分解の実験が含まれており、これらの要因は通常、生物材料の力学に大きく影響します。

別の実験的な利用例として、下図に示されるように、BioinspiredLLMにはジャックフルーツの機械的特性に関する仮説を求められます。

ジャックフルーツは最近になってLazarus et al. によって研究されましたが、この作業はデータセット収集期間の直後に公開されたため、現在のデータセットには含まれていません。つまり、BioinspiredLLMはこの研究を「見た」ことがありません。

BioinspiredLLMの反応（図a）とLazarus et al.から直接描かれた図（図b）との比較が示されています。ジャックフルーツのトゲの構造についての仮説を求められたとき、BioinspiredLLMはトゲがエネルギー吸収と衝撃負荷を助けるネットワークを形成すると予測しますが、これはLazarus et al.の発見によって強く支持される理論でした。

さらに、BioinspiredLLMは重要な留保事項も指摘しています。それは、トゲが亀裂の伝播を制御するのにも役立つということです。これは、Lazarus et al.のコンパクトテンション実験中に示された通りで、亀裂が制御された方法で泡状のマトリックスに沿ってトゲの周りを伝播するのが見られます。BioinspiredLLMは、このデータに明示的に学習したことがないにもかかわらず、これらの発見を予測しています。

アシスタント

BioinspiredLLMは、個別の研究タスクを支援できます。以下の抜粋では、BioinspiredLLMにデータセットを組み立てるよう要求しています。

BioinspiredLLMは、ユーザーの要求に応じて、種とそれらの構造および機械的特性を明確かつ整理されたチャートで提供します。この反応や拡張された反応を使用して、生物材料の完全なデータセットを迅速に生成します。さらに、この手法は、人間が種や特性を選択し、グループ化する場合に生じる可能性のある主観的偏見を制限します。

もっと型破りで魅力的なシナリオでは、BioinspiredLLMはプロンプトエンジニアリングを支援し、他の生成AIモデルと協力することができます。テキストから画像へ変換するモデルであるStable Diffusion 2.0との協働を通じ、BioinspiredLLMはユーザーのアイデア創出も可能にします。下図は、BioinspiredLLM、Stable Diffusion 2.0、およびユーザー間の協力を示す潜在的なワークフローを示しています。ユーザーとBioinspiredLLMの会話で、Text-to-imageのモデルを使用して生物に触発された2D画像を生成するための適切なプロンプトについて議論しています。BioinspiredLLMが複数のプロンプトを提案し、それらを強調して表示しています。

ユーザーが、BioinspiredLLMに対して、藻、羽、クモの巣、サンゴなど、自然界の要素からインスピレーションを受けたデザインのための詳細かつ具体的なプロンプトを要求すると、BioinspiredLLMから出力されたプロンプトは、次に画像合成AIツールStable Diffusion 2.0に入力され、下図のように画像が生成されます。ユーザーがアイデアをブレインストーミングするのを支援することができます。

選出された画像はさらに、熱マッピング技術を用いて3Dモデルに変換されることで、その応用範囲はさらに広がります。生成された3Dモデルは、将来的なシミュレーションや実験の基礎として活用でき、生物に触発された材料の設計と開発のプロセスを大幅に加速させることができます。

また、別の例では、下図に示されているように、ユーザーはBioinspiredLLMに2つの生物材料の構造を組み合わせるアイデアを求めることもできます。

BioinspiredLLMは、植物細胞壁と動物の蹄、海綿のスピキュールと骨、そして蓮の葉と蝶の翼を組み合わせるなど、創造的な提案を提供しています。BioinspiredLLMが生物種と魅力的な組み合わせを提供するだけでなく、各応答は材料特性の文脈での材料選択のロジックを概説し、新しいデザインの挙動についての仮説も提案しています。

これらのデザインアイデアもStable Diffusion 2.0に入力され、2D画像を生成し、その中から1つを3Dモデルに変換するために選択されます。これらの生成AIフレームワークが、生物に触発されたデザインとプロトタイプの創造を劇的に加速できることは明らかです。BioinspiredLLMの生成的な「創造的」能力を活用することで、研究者は機械的な洞察に支えられたユニークなアイデアによって導かれることができます。生成AI技術の支援により、生物に触発された材料のデザインと開発のタイムラインは著しく加速されることができます。

まとめ

この論文では、構造生物材料の専門知識を持つ会話型大規模言語モデル「BioinspiredLLM」を提案しています。深層学習技術を活用して生物材料に特化させたこのモデルは、ベースモデルを遥かに凌駕する性能を発揮しています。

特に注目すべきは、Q-A処理蒸留技術を通じて行われるテキストとデータのマイニング及びクリーニングが、形式的なライティングから現実的な対話を創出し、テキストフラグメントを大幅に削減することに成功している点です。

また、BioinspiredLLMは、特に検索補助戦略(RAG)を用いることで、生物材料に関する情報を正確かつ簡潔に提供することができます。さらに、このモデルは、事前学習とファインチューニングからの知識を統合し、まだ明らかにされていない生物材料についての新たな洞察や創造的なアイデアを提供する能力を持っています。特にこれまでに明示的に研究されたことのない材料に関しては顕著です。データセットの生成やグルーピング、クラスタリングといったタスクにおいても、BioinspiredLLMは研究者の強力な支援者となり得ます。

最も興味深い点の一つは、BioinspiredLLMが他の生成型AIモデルと連携して作業を進める際に示す顕著な可能性です。このような新しい生成型AI協力エージェントフレームワークは、生物に触発された材料の設計と開発に要する時間とリソースを劇的に削減することが可能です。BioinspiredLLMの取り組みは、生物材料の研究とそれに触発された材料科学に新たな次元をもたらし、研究の新しい地平を切り開くことが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。