大規模言語モデルが科学的発見に与える影響：GPT-4を用いた予備的研究

Large language models 2024年02月05日

3つの要点
✔️ GPT-4は科学的発見活動にも大きく寄与しつつあります。
✔️ 創薬、生物学、計算化学、材料設計、偏微分方程式と幅広く、GPT-4の応用が紹介されています。また、それぞれの応用でのテクニックを紹介しています。
✔️ 現時点でのGPT-4を用いるうえでの不足点を整理し、将来への展望をまとめています。

The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4
written by Microsoft Research AI4Science, Microsoft Azure Quantum
(Submitted on 13 Nov 2023 (v1), last revised 8 Dec 2023 (this version, v2))
Comments: Accepted on arXiv
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、自然言語処理における画期的な進歩により、強力な大規模言語モデル（LLM）が登場し、自然言語の理解、生成、翻訳、さらには言語処理に留まらないタスクなど、広範な領域で目覚ましい能力を発揮しています。

本レポートでは、最先端の言語モデルであるGPT-4に焦点を当て、科学的発見・研究の文脈におけるLLMの性能について掘り下げます。調査対象は、創薬、生物学、計算化学（密度汎関数理論（DFT）と分子動力学（MD））、材料設計、偏微分方程式（PDE）など、さまざまな科学分野にわたります。

GPT-4を科学的なタスクで評価することは、様々な研究領域におけるGPT-4の可能性を明らかにし、領域固有の専門知識を検証し、科学の進歩を加速し、資源配分を最適化し、将来のモデル開発を導き、学際的研究を促進するために極めて重要です。本論文の調査方法は、主に専門家主導のケース評価から構成されており、複雑な科学的概念や関係に対するモデルの理解について定性的な洞察を提供します。

著者による予備的な調査では、GPT-4が様々な科学的応用に対して有望な可能性を示しており、複雑な問題解決や知識統合のタスクを処理するのに適していることを示しています。著者らは、前述のドメイン（例えば、創薬、生物学、計算化学、材料設計など）におけるGPT-4の性能の分析を示し、その長所と限界を強調します。大まかに言えば、GPT-4の知識ベース、科学的理解、科学的数値計算能力、様々な科学的予測能力を評価します。

生物学や材料設計の分野では、GPT-4は特定の要求に対応できる広範な領域知識を有しています。創薬のような他の分野では、GPT-4は強力な特性予測能力を発揮します。しかし、計算化学やPDEのような研究分野では、GPT-4は研究者の予測や計算を支援するために有望である一方、その精度を高めるためにさらなる努力が必要です。

GPT-4は、その素晴らしい能力にもかかわらず、定量的な計算タスクのために改善することができます。例えば、より良い精度を達成するためには微調整が必要です。LLMと大規模機械学習の分野は急速に進歩しており、この技術の将来の世代は、本レポートで取り上げた以外の機能を持つ可能性があることを強調しておきます。特に、LLMと専門的な科学ツールやモデルとの統合は、基礎的な科学モデルの開発とともに、2つの有望な探求の道を示しています。

はじめに

人工知能（AI）の急速な発展は、OpenAIのGPT-4、GoogleのPaLM 2、AnthropicのClaude、MetaのLLaMA 2 などの洗練された大規模言語モデル（LLM）の出現につながっています。LLMは、様々な領域にわたって、著者たちが情報を生成し処理する方法を変えることができ、抽象化、理解、視覚、コーディング、数学、法律、人間の動機や感情の理解など、様々なタスクで卓越した性能を実証しています。

LLMは、テキスト分野だけでなく、画像処理、音声認識、さらには強化学習など、他の領域への統合にも成功しており、その適応性と幅広い応用の可能性を示しています。さらに、LLMは複雑なタスクのために他の機械学習モデルを調整するコントローラ/オーケストレータとして使用されています。これらのLLMの中で、GPT-4はその驚くべき能力で大きな注目を集めています。

最近の論文では、GPT-4が人工知能（AGI）の初期兆候を示している可能性さえ指摘されています。GPT-4は一般的なAIタスクで並外れた能力を発揮するため、科学界、特に医学、ヘルスケア、工学、社会科学などの領域でも大きな注目を集めています。本研究では、自然科学研究の文脈における LLM の能力を検証することを主な目的としています。自然科学は広範囲に及ぶため、すべてのサブディシプリンを網羅することは不可能であるため、創薬、生物学、計算化学、材料設計、偏微分方程式（PDE）など、一部の分野に焦点を当てます。

著者らの目的は、最先端のLLMであるGPT-4を中心に、LLMの性能と、これらの特定の科学分野におけるLLMの潜在的な適用可能性について、幅広い概観を提供することです。本レポートの概要は、図1.1の通りです。

（この記事では、創薬についてのテクニックについてのみ紹介します。他の分野に興味をお持ちの読者は、原論文をご参照ください。）

図1.1：本報告書の概要

創薬

創薬とは、特定の疾患や病態を治療または予防するための新たな医薬品候補を同定し、開発するプロセスです。この複雑で多面的な分野は、安全で効果的な標的治療薬を創出することにより、人々の健康と幸福を向上させることを目的としています。創薬の重要性は、病気を治療し、苦しみを和らげ、人々の健康を改善するための新しい治療薬を同定・開発する能力にあります。創薬は製薬産業の重要な一部であり、医学の進歩に重要な役割を果たしています。創薬には、標的の同定、リード化合物の最適化、前臨床試験など、複雑かつ学際的なプロセスが含まれ、最終的に安全で効果的な医薬品の開発につながります。創薬におけるGPT-4の能力を評価することは、創薬プロセスの加速、探索・設計コストの削減、創造性の向上など、大きな可能性を秘めています。本章では、まずGPT-4の創薬に関する知識を定性的なテストを通して研究し、次に薬物-標的相互作用/結合親和性予測、分子物性予測、逆合成予測を含む複数の重要なタスクに関する定量的なテストを通して、GPT-4の予測能力を研究します。

著者らは、GPT-4が創薬に与える大きな可能性を見ています：

- 幅広い知識 : GPT-4は、個々の薬物、標的タンパク質、低分子医薬品の一般原則、創薬プロセスの様々な段階で直面する課題など、創薬における重要な概念を幅広く理解しています。このような幅広い知識ベースにより、GPT-4は幅広い創薬タスクにおいて有用な洞察や提案を提供することができます。

- 主要タスクにおける汎用性 : GPT-4のようなLLMは、創薬における以下のようないくつかの重要なタスクを支援することができます：

- 分子操作：分子操作：GPT-4は既存の分子構造を改変して新しい分子構造を生成することができ、新規の創薬候補物質の発見につながる可能性があります。

- 薬物標的結合予測： GPT-4は、分子と標的タンパク質との相互作用を予測することができます。

- 分子特性予測 : GPT-4は分子の様々な物理化学的および生物学的特性を予測することができます。

- 逆合成予測： GPT-4は標的分子の合成経路を予測することができ、化学者が効率的でコスト効果の高い合成戦略を設計するのに役立ちます（図2.23）。

- 新規分子の生成： GPT-4は、テキストの指示に従って新規分子を生成することができます。このde novo分子生成機能は、アンメット・メディカル・ニーズを解決する可能性のある新薬候補を同定するための貴重なツールとなります。

- コーディング機能： GPT-4の強力なコーディング能力は、将来的に人間の労力を大幅に軽減します。GPT-4は創薬研究を支援する有用なツールですが、その限界と潜在的なエラーに注意することが重要です。

GPT-4をより良く活用するために、研究者のためにいくつかのヒントを提供します：

- SMILES配列処理の課題： GPT-4はSMILES配列を直接処理するのに苦労するかもしれません。モデルの理解と出力を向上させるためには、可能であれば、薬剤分子の名前とその説明を提供する方がよいでしょう。そうすることで、モデルにより多くの文脈が与えられ、適切で正確な回答を生成する能力が向上します。

- 定量的タスクにおける限界： GPT-4は定性的なタスクや質問には優れていますが、評価したデータセットにおける分子特性や薬物-標的結合の数値予測などの定量的なタスクに関しては、限界に直面する可能性があります。このような場合はGPT-4の出力を参考とし、専用のAIモデルや科学計算ツールを用いて検証を行い、信頼性の高い結論を得ることをお勧めします。

- 生成分子のダブルチェック : GPT-4で新規分子を生成する場合、生成された構造の妥当性と化学的特性を検証することが不可欠です。

創薬におけるキーコンセプト

・エンティティ翻訳

ここでは、薬剤名、IUPAC命名法、化学式、SMILES表現の翻訳におけるGPT-4の性能評価に焦点を当てます。

薬剤名、IUPAC命名法、化学式、およびSMILES文字列は、薬剤分子の化学構造と特性を理解し、伝達するための重要な構成要素です。これらの表現は、研究者が化合物を効果的に伝達、検索、分析するために不可欠です。いくつかの例を図2.2と図2.3に示します。

最初の例は、化学式、IUPAC名、および指定された薬剤名のSMILESを生成するものです。入力薬剤としてアファチニブ（非小細胞肺がん（NSCLC）の治療に使用される薬剤）を取り上げます。図2.2に示すように、GPT-4は化学式をC24H25ClFN5O3と正しく出力し、IUPAC名も正しいので、GPT-4は薬剤アファチニブを認識しています。

しかし、SMILESは正しくありません。そこで、ガイダンスを与え、GPT-4にSMILESを生成させます。残念ながら、図に示すように、GPT-4に「各原子型の原子数に注意する」ように明示的に指示し、正しいIUPACと化学式に基づいて生成させたにもかかわらず、いくつかの試行で生成されたSMILES配列はまだ正しくありません。

図2.3では，GPT-4にIUPAC名とSMILES配列の翻訳と化学式の出力を依頼しています．図に示すように，SMILES配列からIUPAC名への変換は正しいのですが，反対方向への変換は正しくありません．さらに、生成された化学式はどちらの翻訳方向でも正しくありません。これらの2つのケースから、IUPACはGPT-4にとって理解しやすく、生成しやすいことがわかります。

GPT-4がサブワード表現に基づいているため、トークン化の方法がGPT-4で使用されている可能性があります。この仮説は、生成された化学式が各原子型のカウントに基づいているため、（図2.3に示すように）必ずしも正しくないという状況を説明することもできます。

図2.2：エンティティ翻訳の例。薬剤名が与えられた場合、その化学式、IUPAC名、およびSMILESを生成します。最初の分子グラフはアファチニブの真実の2次元構造で、後の4つのグラフはGPT-4によって生成されたSMILES配列から変換されたものです。

図2.3：IUPAC名とSMILESの翻訳。

・知識や情報の暗記

創薬のためのGPT-4の知識と情報記憶能力を評価します。選択する薬剤はやはりアファチニブであり、ケースを図2.4に示します。

まず、GPT-4にアファチニブという薬物の紹介を依頼すると、GPT-4は、分子の種類、標的受容体、FDAが証明した時期、機能、経路、副作用など、複数の情報を回答します。PubchemとDrugBankのチェックにより、GPT-4が提供した情報は明確で正しく、GPT-4がアファチニブに関する知識を持っていることを示しています。

次に、分子医薬を真に理解するために重要なアファチニブの化学的性質についてさらに質問します。図2.5で、GPT-4はアファチニブについて、分子量、溶解度、XLogP3、水素結合アクセプター数など、さまざまな性質を答えています。(1)紹介した性質はほとんど正しい。(2)いくつかの性質は正しくありません。特に重原子の数のような計数関連の結果は正しくありません。(3) 興味深いことに、生成されたアファチニブのSMILES表記がまた間違っています。

これは前のサブセクションの観察とよく一致しており、SMILESの生成がGPT-4にとってまだ課題であることを示唆しています。

図2.4：GPT-4から薬剤アファチニブに関する一般的・化学的情報を取得。アファチニブに関する知識のほとんどは正しい。

図2.5：GPT-4から薬剤アファチニブの分子特性情報を取得

・分子操作

分子操作とは、分子の構造を改変して、望ましい特性や機能を実現することです。製薬業界では、分子操作によって医薬品候補化合物を最適化し、有効性の向上、副作用の軽減、薬物動態特性の改善などを図ることができ、これは強力で安全な治療薬を設計するために極めて重要です。

図2.7では、GPT-4が薬物分子操作の手助けを依頼された事例を紹介します。具体的には、BCR::ABL1キナーゼ活性のファーストインクラスのアロステリック阻害剤であるAsciminibは、2ライン治療に失敗した慢性期の慢性骨髄性白血病患者、またはT315I変異を持つ患者の治療薬として最近承認されました。

まずGPT-4に、アスシミニブの塩素（Cl）を周期表の下の行にある元素（実際は臭素（Br））に置き換えてアスシミニブを修正するよう依頼すると、GPT-4はその元素を知っており、置き換えに成功します。さらにGPT-4に、ピロリジンを6員環に置き換え、アルコールをフッ化物に変えるように指示すると、GPT-4は正しいプロセスを示しますが、興味深いことに、結果は間違っています。

何度もガイダンスと修正を繰り返した後、GPT-4は最終的に目的の分子を正しく修正します。したがって、GPT-4は強力な知識を持っていますが、具体的なユーザーフィードバックとステップバイステップのチェックがないと、GPT-4は大きな可能性でエラーに失敗する可能性があることがわかります。GPT-4がしばしば無効なSMILESを生成することを示すケースもあります。

図2.7：アスシミニブの操作。GPT-4は指示に従って修正を試みますが、修正結果は正しくありません。何度もガイダンスを繰り返し、GPT-4は最終的に正しい修正を行います。

・創薬に関するマクロな疑問

上記の評価は、より個々の薬や分子に焦点を当てています。ここではさらに、創薬に関する巨視的な質問についてGPT-4をテストします。図2.8では、まずLipinski's Rule of Five（リピンスキーの5つの法則）に関する基本的な質問をしています。

GPT-4は正解を示し、化合物の薬物性を評価する上で合理的な説明をします。図2.9では、GPT-4は創薬における主な課題を紹介する問題です。これは一般的で幅広い問題で、標準的な解答はありません。GPT-4の回答が意味深長であることは、GPT-4がこのような創薬に関する巨視的な知識を持っていることを意味しています。

図2.10の最後のケースは、AIや機械学習が創薬にどのように役立つかというものです。GPT-4の回答は、物性予測（ADMET）、ドラッグデザイン（ジェネレイティブモデル）、知識発見など、AIが役立つ可能性のあるさまざまな側面をカバーする、充実した良い回答です。全体的に言えば、GPT-4は創薬の全プロセスと個々のステップに関する知識を持っています。

図2.8：リピンスキーの「5つの法則」について。

図2.9：創薬における主な課題について。

図2.10：創薬のためのAIについての提案。

薬物-標的結合

薬理学と創薬の分野における基本的な概念である薬物標的結合とは、薬物分子とその標的（通常は体内のタンパク質や受容体）との間の特異的な相互作用のことです。薬物-標的結合を理解することは、効果的で安全な薬物を設計するために不可欠です。結合親和性と呼ばれる相互作用の強さは、薬物の効力と有効性を決定する重要な要素です。一般に、結合親和性が高ければ高いほど、標的に対する作用が強くなり、その結果、治療効果も大きくなります。薬物とその標的との結合親和性を正確に予測することで、創薬パイプラインを大幅に迅速化し、新しい治療法の上市に必要な時間とコストを削減することができます。ここでは、GPT-4の薬物-標的相互作用（DTI）と親和性スコアの予測能力を調査します。定量的評価のために多様な薬剤候補と標的タンパク質を代表する一連のベンチマークデータセットを採用し、定性的評価のためにケーススタディを採用します。

・薬物-標的親和性予測

薬物-標的親和性（DTA）予測は、薬物候補とその標的タンパク質の間の結合強度を定量化する親和性スコアを推定する回帰問題です。

設定 : BindingDBとDAVISは親和性予測のための2つの著名なデータセットで、図2.11に示すように、異なるデータ分布を示します。著者らは先行研究で利用されたデータ処理アプローチを採用しました。API コールの制限のため、テストセットには 1,000 サンプルをランダムに選択します。GPT-4 の温度を 0.7 に設定しました。ゼロショット、少数ショット、類似性ベースの3つの異なる設定を検証します。

図2.11: BindingDB KiとDAVISデータセットのラベル分布。x軸は親和性値の対数処理を表し、y軸は各親和性値に対応する頻度比を表示。

ゼロショット評価 : ゼロショット評価では，図2.12～図2.13に示すように，主にGPT-4が親和性予測の重要な概念を理解する能力をテストします．

- 図2.12において、GPT-4は薬物と標的の親和性を推定するように指示されても、直接計算を実行しません。その代わり、結合親和性を推定するためのステップバイステップのガイダンスを提供し、薬物と標的に関する追加情報を提供します。

- 図2.13は、GPT-4が「直接」親和性予測を計算しているように見える興味深いケースです。薬物の SMILES と標的の FASTA 配列を与えると、GPT-4 は一見、 AutoDock Vina（ドッキングソフト）の実行をエミュレートし、-7.2 kcal/mol という親和性スコアを返します。しかし、純粋にAutoDock Vinaを実行しているわけではなく、単にスコアを捏造しているだけです。そのため、GPT-4が生成するこのような数値結果の正確性を検証することが重要です。

図2.12：ゼロショット薬物標的親和性（DTA）予測の例： GPT-4モデルはDTAを直接予測するのではなく、関連するドッキングソフトウエアを使用して親和性を計算するなどの貴重な情報を提供します。

図2.13：ゼロショットDTA予測の興味深い例： GPT-4はドッキングソフトウエアを実行しているように見えますが、単に親和性スコアを作成しているだけです。

少数ショットの評価 : DTA予測のためのGPT-4の少数ショット学習能力を調査するために、GPT-4に少数ショットの例（デモ）を提供します。(1)異なるシステムプロンプト(ゼロショット評価と同様)、(2)さまざまな数の少数ショット例。少数ショットの例については、多様性と品質を確保するために、ランダムに選択するか、手動で選択します7が、予測結果にはわずかな違いが見られます。

図2.14は2つの異なるシステムプロンプトを表示し、図2.15は少数ショットの例を示しています。1つ目のシステムプロンプトは、GPT-4が親和性を推定できるかどうかをテストするための薬の専門家から発信されたものであり、2つ目のシステムプロンプトは、GPT-4が機械学習予測器として機能し、数ショットの事例からパターンを識別することを目的としています。数ショットの評価結果を表1に示します。

表によると、BindingDB Kiデータセットでは、GPT-4は、プロンプトや少数ショットのケース数に関係なく、親和性スコアをランダムに推測しているように見えます。対照的に、GPT-4はDAVISデータセットで能力を発揮し、より多くの少数ショット例（3例に対して5例）でDTA予測性能をいくらか向上させることができます。しかし、最先端のディープラーニングモデルと比較すると、結果はまだ不十分です。

図2.14：表1に示した評価で使用したシステムメッセージ。

図2.15: 数ショットDTA評価で使用した数ショットの例。

表1：表1：BindingDB KiデータセットとDAVISデータセットにおける数ショットDTA予測結果。Rはピアソン相関を表し、Siは図2.14に示すように異なるシステムプロンプトを表します。

kNN 数ショット評価 : これまでの評価では、数ショットのサンプルは手動またはランダムに選択され、これらの例（デモ）は、（1000）テストセット全体を通して、各テストケースに対して一貫したままです。GPT-4の学習能力をさらに評価するために、k最近傍を使って数ショット例を選択し、追加の数ショット評価を行います。

具体的には、各テストケースに対して、テストケースに類似していることが保証された異なる少数ショット例を提供します。これを kNN 数ショット評価と呼びます。このようにして、テストケースはその類似例から学習し、より良い親和性予測を達成することができます。

k個の最近傍を少数ショット例として得るには様々な方法がありますが、本研究では、テストケースと学習セット（例：BindingDB Ki学習セット、DAVIS学習セット）内のケースの間の埋め込み余弦類似度を計算することにより、埋め込みベースの類似度検索を採用します。埋め込みはGPT-3モデルから導出され、すべての訓練ケースとテストケースのGPT-3埋め込みを取得するためにAPIコールを使用します。

表2に表示される結果は、類似性に基づく少数ショット例がDTA予測の精度を大幅に改善できることを示しています。例えば、ピアソン相関は0.5に近づくことができ、より多くの類似例が性能をさらに向上させることができます。上限は、30個の最近傍を提供した場合に観察されます。これらの結果は有望ですが（以前の数ショットの評価と比較して）、性能はまだ既存のモデル（例えば、SMT-DTA。その結果、GPT-4が微調整なしでDTA予測に秀でるには、まだ長い道のりがあります。

表2：DAVISデータセットにおけるkNNベースの少数ショットDTA予測結果。薬剤と標的配列のGPT-3埋め込みにより、様々な数のK最近傍が選択されています。Pはピアソン相関。

・薬物-標的相互作用予測

薬物-標的相互作用（DTI）予測も親和性予測に似たタスクです。DTIは、薬物とターゲットの間の特定の親和性値を出力する代わりに、薬物とターゲットが強い結合親和性を持つかどうかを示す「はい」か「いいえ」の回答を出力する二値分類タスクです。これは、より単純な予測タスクであると推測されます。カスタマイズしたBindingDBデータセットを評価します。500の陽性と500の陰性の薬物-標的ペアで1000のテストケースをランダムに選択します。同様に、ゼロショット、少数ショット、kNN少数ショットの設定でも評価を行います。

ゼロショット評価と少数ショット評価 : ゼロショット評価では、図2.17のようなシステムプロンプトが表示され、化合物のIUPAC名、SMILES、標的タンパク質名、FASTA配列をGPT-4に与えます。DTA予測から、GPT-4はこれらの項目のマッピングを認識するのに苦労していることがわかりました。その結果 (1)GPT-4は、バイナリラベルを出力するように要求されたとき、相互作用予測に対してランダムに'Yes'か'No'を出力し、その説明が不合理に見えること；(2)GPT-4は、薬物と標的が相互作用できるかどうかの答えを出さないことがあり、ドッキングツール（DTA予測と同様）の利用を推奨しています； (3)より厳しいプロンプト、例えば、GPT-4に「説明と答えを確認し、より確信の持てる答えを出す」ように求めると、GPT-4は、図2.16に示すように、「化合物がタンパク質と相互作用できるかどうか確信を持って答えることはできません」と答えることがほとんどです。

図2.16：薬物-標的相互作用に対するゼロショット評価の例。GPT-4は、セルフリファインメントのプロンプトを出すと、高い確率で回答を拒否します。

図2.17：ゼロショット評価、表3の少数ショット評価、表4のkNN少数ショットDTI評価に使用されたシステムメッセージ。

数ショットの評価については、結果を表3に示します。ランダムにサンプリングされた少数ショットの例8を{1,3,5,10,20}の間で変化させ、少数ショットの例の数が増加するにつれて分類結果が安定しないことを観察します。さらに、結果はBridgeDTI[96]のような訓練されたディープラーニングモデルに大きく遅れをとっています。

表3：BindingDBデータセットにおけるFew-shot DTI予測結果。Nはランダムにサンプリングされた少数ショットの例数。

kNN 数ショットの評価 : 同様に、GPT-4 の BindingDB DTI 予測に対して、埋め込みベースの kNN 数ショットの評価を行います。埋め込みもGPT-3から得られたものです。各テストケースについて、最近傍kは{1,5,10,20,30}の範囲であり、結果は表4に表示されています。表から、より類似した薬物-標的相互作用のペアを組み込むことによる明らかな利点が観察できます。例えば、k = 1からk = 20まで、精度、正確さ、再現性、F1スコアが大幅に向上しています。GPT-4は、ロバストDTIモデルBridgeDTI [96]をわずかに上回り、埋め込みベースのkNN評価による強力な学習能力と、DTI予測のためのGPT-4の大きな可能性を示しています。これはまた、GPT埋め込みが二値DTI分類タスクで良好に機能することを示しています。

表4：BindingDBデータセットにおけるkNNベースの少数ショットDTI予測結果。GPT-3エンベッディングにより、薬物配列とターゲット配列に対して異なる数のK個の最近傍配列が選択されています。

分子物性予測

ここでは、MoleculeNetから選択した2つの特性予測タスクに対して、GPT-4の性能を定量的に評価します：一つは薬剤の血液脳関門透過（BBBP）能力を予測するもので、もう一つは薬剤がP53経路（Tox21-p53）と生物活性を持つかどうかを予測するものです。どちらのタスクも二値分類です。

スキャフォールド分割を使用し、データベース内の各分子について、そのスキャフォールドを抽出します。次に、スキャフォールドの頻度に基づいて、対応する分子をトレーニングセット、検証セット、テストセットに割り当てます。これにより、3つのセットの分子が構造の違いを示すことが保証されます。

定性的研究では、GPT-4は同じ分子でも表現が異なると性能が異なることがわかりました。ここでの定量的研究では、異なる表現についても調べました。まず、分子SMILESまたはIUPAC名でGPT-4をテストします。IUPACのプロンプトは図2.18の一番上のボックスに示されています。SMILESベースのプロンプトでは、"IUPAC "を "SMILES "に置き換えるだけです。結果を表 5 に示します。一般に、IUPACを入力とするGPT-4は、SMILESを入力とするGPT-4よりも良い結果を達成しています。著者らの推測では、GPT-4が使用した訓練テキストでは、SMILESよりも頻出する部分構造名を明示的に使用することにより、IUPAC名が分子を表現しています。

自然言語タスクにおけるLLMの数ショット（または文脈内）学習の成功に触発され、IUPAC名を用いたBBBPの5ショット評価を実施しました。プロンプトを図2.18に示します。テストセットの各分子について、モーガンのフィンガープリントに基づいてトレーニングセットから最も類似した5つの分子を選択します。興味深いことに、ゼロショット設定（表5の'IUPAC'の行）と比較すると、5ショットの精度と正確さが低下し（表5の'IUPAC (5-shot)'の行）、リコールとF1が増加していることが観察されます。この現象は、データセット分割手法に起因していると考えられます。足場分割はトレーニングセットとテストセットの間に大きな構造的差異をもたらすので、少数ショットケースとして選ばれた5つの最も類似した分子は、テストケースと実際には類似していない可能性があります。このような構造的な違いは、偏った予測や誤った予測につながる可能性があります。

図2.18：BBBP特性予測のためのプロンプト。分子はIUPAC名で表されます。

表5：BBBPの予測結果。テストセットには107個の陽性サンプルと97個の陰性サンプルがあります。

SMILESとIUPACを使用することに加えて、薬剤名を用いたGPT-4でもテストします。DrugBankで分子SMILESを検索し、薬剤名を取得します。204の薬剤のうち、108の薬剤名がDrugBankで見つかりました。図2.18と同様のプロンプトで名前を入力します。結果は表5の右半分に示されており、SMILESとIUPACを入力したGPT-4による108の薬剤の対応する結果もリストアップされています。分子名を使用することで、4つのメトリクスのすべてが有意な改善を示していることがわかります。考えられる説明は、GPT-4の学習コーパスにおいて、薬剤名が（IUPAC名やSMILESよりも）頻繁に出現するということです。

BBBPの最終的な分析では、分子SMILESと生物医学文献で特別に訓練されたGPTベースの言語モデルであるMolXPT と比較してGPT-4を評価します。MolXPTは350Mのパラメータを持ち、MoleculeNet上で微調整されています。特筆すべきは、完全なテストセットでの性能で、GPT-4を上回り、精度、再現率、F1スコアはそれぞれ70.1、66.7、86.0、75.1でした。この結果は、分子物性予測の領域において、特化したモデルを微調整することで、GPT-4と同等かそれ以上の結果が得られることを明らかにし、GPT-4の改善の余地が大きいことを示しています。

Tox21-p53の結果を表6に示します。同様に、IUPAC名を入力とするGPT-4はSMILESを上回り、5ショットの結果はゼロショットの結果よりはるかに悪い。

表6：Tox21のSRp53セット（簡単に言うとTox21-p53）の予測結果．GPT-4のAPIアクセス枠の制限のため，テストセットからすべての陽性サンプル（72サンプル）と144の陰性サンプル（陽性サンプルの2倍）を無作為に選んで評価しました．

ゼロショットBBBP予測の例を図2.19に示します。GPT-4は、正確な薬剤の説明、効能、標的を生成し、妥当な結論を導きます。

図2.19：BBBP予測の例：スフェンタニル（DrugBank ID：DB00708）。緑色の部分が正しいことが確認されています。

レトロシンセシス

レトロシンセシスは創薬プロセスにおいて重要なツールであり、化学者はより単純な出発物質から目的の化合物を作り出すための合成経路を戦略的に考案することができます。複雑な分子をより単純な構成要素に分解することで、化学者は新薬候補を開発するための最も効率的で費用対効果の高い合成経路を決定することができます。その結果、レトロシンセシスによって、新薬候補化合物の迅速かつ効率的な設計と合成が可能になります。

ここでは、GPT-4が化学反応を理解し、生成物に対する潜在的な反応物を定性的にも定量的にも予測できることを探ります。

・化学反応の理解

GPT-4が化学反応を理解する能力を実証するために、2つのケースを示します。図2.21では、GPT-4に有機化学者、逆合成の専門家として、与えられた化学反応（SMILES配列で表される）を説明してもらいます。GPT-4はまずSMILESシーケンスを反応物の名前に翻訳し、次に反応のメカニズムを説明します。GPT-4は最初のステップ、すなわちSMILES CC(=O)c1ccc2[nH]ccc2c19を2-アセチルインドールの名前に翻訳し、SMILES CC(C)(C)OC(=O)OC(=O)OC(C)(C)C10を無水トリメチル酢酸の名前に翻訳するところで失敗します。図2.20に示すように、これらの名前は元のSMILESと非常によく似た分子グラフを持っていますが、異なる分子です。その結果、以下の説明は間違った方向に進んでしまいます。図2.22では、GPT-4にこの化学反応を説明するために一歩一歩注意深く考えてもらいます。今度は正しい方向に説明が進みます： GPT-4はもはやSMILES配列を名前に変換せず、代わりに分子中の官能基を詳細に説明しています。残念ながら、まだ正しくありません：ジ-tertブチルジカーボネートは3つのエステル（C=O）官能基を持っていませんし、副生成物としてtert-ブタノール酸ではなくイソブテンとCO2が得られるので、反応メカニズムの説明は完全には正しくありません。

図2.20: GPT-4によって生成された2つの真実の反応物(a)と(c)の2次元分子グラフと、その翻訳名(b)と(d)。似ていますが、同一ではありません。

図2.21：化学反応を理解するための例1。

図2.22：化学反応を理解するための例2。

・逆合成の予測

広く使用されているベンチマークUSPTO-50Kデータセットと数ショットの設定を使用して、シングルステップの逆合成予測（すなわち、与えられた生成物に対して可能性のある反応物の予測）におけるGPT-4の能力を定量的に研究します。

設定 : USPTO-50Kデータセットには、米国特許から抽出された50,037の化学反応が含まれています。多くの文献と同じデータ分割を使用し、40,029反応をトレーニングセット、5,007反応をテストセットとしています。APIコールの制限により、テストにはUSPTO-50Kテストセットから最初の500サンプルを選択します。評価指標としてトップ1精度を使用し、主なベースラインとしてR-SMILESを使用します。R-SMILESは逆合成予測のために特別に設計され、このデータセットで訓練された最先端のモデルです。

少数ショットの結果 :著者らはGPT-4の逆合成予測のための少数ショット能力を評価する際に、いくつかの側面を考慮しました： (1)数ショットの例数の違い、(2)数ショットの例を得る方法の違い。(a)ランダムに選択する方法、(b)トレーニングデータセットからMolecular Fingerprintsの類似度に基づいてK個の最近傍を選択する方法。(3) プロンプトに IUPAC 名を追加することで精度が向上するかどうかも評価します。図2.23に数ショット評価に用いたプロンプトを示します。その結果を表7に示します：

- GPT-4は逆合成の予測精度が20.

.- GPT-4の精度は、より多くの例をプロンプトに追加すると向上し、K = 10が良い選択です。

- Kの最近傍探索は、ランダム探索を大幅に上回ります（20.2%対1.2%）。

- プロンプトにIUPAC名を含めると、精度がわずかに向上し（20.6% vs 20.2%）、無効なSMILESの比率が減少します。

- GPT-4の精度(20.6%)はドメイン固有モデルの精度(53.6%)よりも低く、これはこの特定のタスクのためにGPT-4を改善する余地が十分にあることを示しています。

図2.24は、GPT-4が最初の試行で生成物に対する正しい反応物の予測に失敗し、数回のガイダンスと修正を経て最終的に成功した例を示しています。これは、GPT-4 が優れた知識を持っていることを示唆していますが、エラーを回避するためには、具体的なユーザーフィードバックとステップバイステップの検証が必要です。

表7：USPTO-50kデータセットに対する数ショット再合成予測結果。

図2.23: 数ショットレトロ合成予測評価に使用した数ショットの例。

図2.24：逆合成予測の例。複数回のガイダンスにより、GPT-4は最終的に正しい反応物を与えます。

新規分子の生成

創薬における重要な応用例である、薬剤候補としての新規分子の提案／生成について研究します。SARS-Cov-2はスパイクタンパク質を用いてヒトの表面レセプターに侵入します。著者らはGPT-4に、COVID-19を中和するスパイクタンパク質に結合するタンパク質ベースの薬剤をデザインする一般的なガイダンスを提供するよう依頼します。そしてGPT-4は、ロゼッタと呼ばれる計算ツールを使って、そのようなタンパク質医薬品をゼロからデザインする方法を教えてくれます。GPT-4は著者らの質問に対して素晴らしい答えを返し、GPT-4が新規タンパク質医薬品の設計に役立つことを示しています。

図2.25: 生物学的設計のための計算ツールの使い方を理解しているGPT-4。

タンパク質医薬を評価する一つの指標は、標的に対する結合親和性を推定することです。今回は、GPT-4にこの作業を計算で行う方法を教えてもらいました。GPT-4は、RosettaDockという一般に公開されているツールを使って、タンパク質の結合親和性を推定する方法を詳しく教えてくれました。また、結果をどのように解釈するかの例も示してくれました。GPT-4は合理的な設計プロセスを示していますが、非常に複雑な体内環境を持つタンパク質間の相互作用を計算で予測することはまだ困難であるため、タンパク質の設計には検証のためのウェットラボ実験が必要であることに注意してください。

図2.26：GPT-4は、Rosettaと呼ばれる計算ツールを使って、このようなタンパク質医薬品をゼロからデザインする方法を教えてくれます。

データ処理のコーディング支援

GPT-4を使って創薬のためのデータ処理におけるアシスタントの能力を評価します。具体的には、GPT-4に創薬関連データを処理するためのPythonコードを生成させます。かなりの量の薬物やタンパク質のデータは、PubChem11やUniProt12のウェブサイトからダウンロードできるSMILESやFASTAのような配列形式で保存されています。GPT-4には、これらの配列データをダウンロードするPythonコードを書いてもらっており、その例を図2.27と図2.28に示します。

図2.27：PubChemから分子の式をID付きでダウンロードするためのSMILESのコーディング支援。

図2.28： IDを持つUniProtからタンパク質配列をダウンロードするためのコーディング支援。

図2.28では、GPT-4がタンパク質の配列データをダウンロードし、空白を追加して、指定した形式のファイルに保存するコードを正確に記述しています。分子処理（図2.27）では、分子のSMILESと化学式の検索を要求します。興味深いことに、GPT-4はデータダウンロードのためにほぼ正しいURLを生成しますが、URLに「SMILESと化学式」のキーワードを組み合わせてしまい、URLが無効になってしまいます。このエラーについて知らされると、GPT-4はこの問題がPubChem REST APIコールに関連していると特定します。バグを修正する代わりに、データをダウンロードするために「pubchempy」パッケージを使用する代替ソリューションを提案し、コードを正常に実行します。これらの例は、GPT-4が創薬におけるデータ処理のための正しいスクリプトを生成するのに役立つことを示しています。

生物学

生物学的言語を理解する能力、推論のために組み込まれた生物学的知識を利用する能力、生体分子や生物学的実験を設計する能力に焦点を当て、生物学研究の領域におけるGPT-4の能力を詳細に探ります。著者らの観察から、GPT-4は複雑な生物学的言語を処理し、バイオインフォマティクスタスクを実行し、さらには生物学設計の科学的アシスタントとして機能する能力を示すことにより、生物学の分野に貢献する大きな可能性を示していることが明らかになりました。GPT-4の生物学的概念の広範な把握と、設計作業における科学的アシスタントとしての有望な可能性は、生物学分野の発展におけるGPT-4の重要な役割を強調しています：

生物情報処理：GPT-4は、MEMEフォーマット、FASTQフォーマット、VCFフォーマットなど、生物学的領域に特化したファイルから情報処理を理解します。さらに、図3.4に示すように、与えられた配列からシグナル伝達ペプチドを予測するなど、与えられたタスクやデータからバイオインフォマティクス解析を行うことに長けています。

- 生物学的理解： GPT-4は、コンセンサス配列、PPI、シグナル伝達経路、進化の概念など、様々な生物学的トピックを幅広く理解しています。

- 生物学的推論： GPT-4は、組み込まれた生物学的知識を用いて、生物学的観察からもっともらしいメカニズムを推論する能力を有しています。

- 生物学的支援： GPT-4は、タンパク質設計タスクの領域や、自動化を目的とした実験プロトコルの翻訳によるウェットラボ実験において、科学的アシスタントとしての可能性を示しています。GPT-4は生物学の研究を支援する非常に強力なツールである一方、いくつかの限界や時折エラーも見受けられます。

GPT-4の能力をよりよく活用するために、研究者のためのいくつかのヒントを提供します：

- FASTA配列の理解： GPT-4にとって特筆すべき課題は、FASTA配列の直接処理です。可能であれば、生体分子の名前を配列と一緒に提供することが望ましいです。

- 一貫性のない結果 GPT-4 の生物学的実体に関連するタスクの成績は、その実体に関連する情報の豊富さに影響されます。転写因子のようなあまり研究されていない実体の解析では、一貫性のない結果が出ることがあります。

- アラビア数字の理解： GPT-4はアラビア数字を直接扱うことに苦労しています。アラビア数字をテキストに変換することをお勧めします。

- 定量計算： GPT-4は生物学的な言語理解と処理に優れていますが、定量的な計算には限界があります。信頼できる結論を得るためには、手動で検証するか、別の計算ツールで検証することをお勧めします。

- プロンプトの感度： GPT-4の回答は一貫性がなく、質問の言い回しに大きく依存します。

まとめると、GPT-4は、生物学的言語の理解と処理、組み込まれた知識による推論、設計タスクの支援に習熟していることを示すことで、生物学の分野を発展させる大きな可能性を示しています。いくつかの限界やエラーはありますが、適切な指導と改良により、GPT-4は、進化し続ける生物学研究の現場において、研究者にとってかけがえのないツールになる可能性があります。

計算化学

計算化学は、化学における複雑な問題に対処するために計算手法やテクニックを活用する学際的な分野です。長い間、計算化学は分子系の研究において不可欠なツールであり、原子レベルの相互作用に関する洞察を提供し、実験的な取り組みを導いてきました。この分野では、分子、原子、材料、物理系の挙動を調べるために、理論モデル、コンピューターシミュレーション、数値アルゴリズムの開発と応用が行われています。計算化学は、分子構造、化学反応、物理現象をミクロとマクロの両方のレベルで理解する上で重要な役割を果たしています。本章では、電子構造法、分子動力学シミュレーションなど、計算化学の様々な領域におけるGPT-4の能力を調査し、GPT-4が様々な観点から役立つ2つの実用例を示します。まとめると、GPT-4 は以下のような能力を持ち、計算化学の研究者を多方面から支援することができると考えています：

GPT-4は、密度汎関数理論、ファインマン図、電子構造理論、分子動力学シミュレーション、分子構造生成などのトピックをカバーする計算化学の広範な知識を有しています。GPT-4は、基本的な概念を説明できるだけでなく、この分野の重要な知見や傾向をまとめることもできます。

- 方法の選択： GPT-4は、システムの規模、タイムスケール、理論のレベルなどの要素を考慮して、特定の研究課題に適した計算手法とソフトウェアパッケージを推奨することができます。

- シミュレーションの設定 GPT-4は、簡単な分子入力構造の準備、特定の対称性、密度汎関数、時間ステップ、アンサンブル、温度、圧力制御法、初期設定などのシミュレーションパラメータの設定と提案を支援することができます。

- コード開発： GPT-4は、既存の計算化学・物理学ソフトウェアパッケージへの新しいアルゴリズムや機能の実装を支援することができます。

- 実験的、計算的、理論的指導： GPT-4は実験的、計算的、理論的なガイダンスを提供することで研究者を支援することができます。GPT-4は計算化学の研究を支援する強力なツールですが、いくつかの限界やエラーも見受けられます。

GPT-4をよりよく活用するために、研究者のためのいくつかのヒントを提供します：

- 幻覚： GPT-4は時折誤った情報を生成することがあります。GPT-4は複雑な論理的推論に苦戦することがあります。研究者はGPT-4からの出力や提案を独自に検証し、妥当性を確認する必要があります。

- 生の原子座標： GPT-4は、複雑な分子や物質の生の原子座標を生成したり処理したりすることは得意ではありません。しかし、分子式、分子名、あるいは他の補助情報を含む適切なプロンプトがあれば、GPT-4は単純な系ではまだ機能するかもしれません。

- 正確な計算： GPT-4は、著者たちが評価したベンチマークでは正確な計算を得意としておらず、対称性や等価性・不変性などの物理的なプリオールは通常無視されます。現在、GPT-4が返す定量的な数値は、文献検索や少数の例から得られるかもしれません。GPT-4と科学計算パッケージ（例：PySCF ）や機械学習モデル（例：Graphormer やDiG ）を組み合わせるのがよいでしょう。

- 実習： GPT-4はガイダンスや提案を提供するだけで、実験やシミュレーションを直接行うことはできません。研究者は、自分でシミュレーションや実験をセットアップして実行するか、AutoGPT16、HuggingGPT、AutoGenなど、GPT-4をベースにした他のフレームワークを活用する必要があります。

要約すると、 GPT-4は、電子構造法、分子動力学シミュレーション、および実世界での応用を含む、計算化学の様々な領域で優れた可能性を示しています。いくつかの制限や不正確さは存在しますが、適切なガイダンスと調整を採用することで、 GPT4はダイナミックに拡大する計算化学の分野をナビゲートする研究者にとって貴重なリソースに進化する可能性を秘めています。

素材デザイン

ここでは、材料設計の領域における GPT-4 の能力を検証します。著者らは、最初の概念化からその後の検証や合成に至るまで、材料設計プロセスにおける広範な側面を網羅する包括的なタスクセットを考案しました。著者らの目的は、GPT-4の専門知識と、実世界での応用において意味のある洞察と解決策を生み出す能力を評価することです。著者らが設計するタスクは、背景知識、設計原理、候補の特定、候補構造の生成、特性の予測、合成条件の予測など、さまざまな側面をカバーしています。設計プロセスの全領域を扱うことで、特に結晶性無機材料、有機ポリマー、および有機金属骨格（MOF）のようなより複雑な材料設計におけるGPT-4の熟練度を総合的に評価することを目的としています。著者らの評価は、主にこの特殊な領域におけるGPT-4の能力の定性的な評価を提供することに重点を置き、統計的なスコアを得ることは実行可能な場合にのみ追求することに留意することが重要です。

著者らの評価を通して、材料設計におけるGPT-4の能力を以下のように要約します：

- 情報の記憶情報記憶：無機結晶や高分子の情報を記憶し、設計原理を提案する能力に優れています。材料設計の基本的なルールをテキストで理解している点は特筆ものです。例えば、固体電解質材料の設計において、イオン伝導性を高める方法を提案し、的確な例を示すことができます。

- 組成の作成：新規無機材料の実現可能な化学組成を生成する能力に長けています（図 5.5）。

- 合成計画無機材料の合成計画に十分な能力を発揮。

- コーディング支援：材料タスクに対して一般的に有用なコーディング支援を提供します。例えば、多数の物性計算用の分子動力学および DFT 入力を生成することができ、多くの計算パッケージを正しく利用し、自動処理パイプラインを構築することができます。生成されたコードを微調整するために、反復フィードバックと手動調整が必要になる場合があります。

GPT-4は、その機能にもかかわらず、材料科学における潜在的な限界も持っています：

- 表現：表現：有機ポリマーやMOFの表現と提案に課題があります。

- 構造生成：構造生成：特に正確な原子座標を生成する際に、構造生成の能力に限界があります。

- 予測：物性予測における正確な定量予測には不十分。例えば、ある材料が金属性か半導電性かを予測する場合、その精度はランダムな推測よりもわずかに優れている程度です。

- 合成ルート：トレーニングセットに存在しない有機高分子材料の合成ルートを、追加ガイダンスなしで提案するのに苦労します。

結論として、GPT-4は材料設計タスクを支援するための有望な基盤を示しています。GPT-4の性能は、構造生成や物性予測などの特定の分野（著者たちが研究したベンチマーク）で、分子グラフや専用 AIモデルなどの補足的なモダリティを持つ追加的なトレーニングデータを組み込むことで、さらに向上する可能性があります。GPT-4のようなLLMが進歩し続けるにつれて、材料設計においてより洗練された正確な支援が可能になり、最終的にはより効率的で効果的な材料の発見と開発につながることが期待されます。

偏微分方程式

偏微分方程式(PDE)は、物理学、工学、生物学、金融など様々な分野に広く応用されており、数学分野の中でも重要かつ活発な研究分野です。PDEは、複数の変数とその偏微分を含む複雑なシステムの挙動を記述する数学方程式です。PDEは、流体力学や熱伝導から電磁場や集団力学に至るまで、幅広い現象のモデリングと理解に重要な役割を果たしています。

ここでは、PDE の基礎の理解、PDE の解法、PDE 研究のための AI 支援という、PDE のいくつかの側面における GPT-4 の能力を調査します。線形方程式、非線形方程式、確率PDEなど様々な形式のPDEについてモデルを評価しました。その結果、GPT-4 が複数の方法で研究者を支援できることがわかりました：

PDE の概念：GPT-4 は基本的な PDE の概念を理解しているため、研究者は扱っている PDE をより深く理解することができます。GPT-4 は、学生を指導する際に役立つリソースとなり、学生が学問的な追求や研究活動において PDE の重要性をよりよく理解し、理解できるようにします。

- 概念の関係：このモデルは概念間の関係を識別することができるため、数学者が視野を広げ、異なるサブフィールド間のつながりを直感的に把握するのに役立つ可能性があります。

- 解決策の推奨： GPT-4は、様々なタイプや複雑なPDEsに対応するための適切な解析的および数値的方法を推奨することができます。特定の問題に応じて、厳密解または近似解を得るための適切な手法を提案することができます。

- コード生成：このモデルは、MATLAB や Python などのさまざまなプログラミング言語で、PDE の数値解法のためのコードを生成することができ、計算解法の実装を容易にします。

- 研究の方向性 GPT-4は、PDE領域においてより重要でインパクトのある結果を導く可能性のある新しい問題、一般化、改良を提案し、さらなる研究の方向性や潜在的な拡張を提案することができます。GPT-4 は PDE 研究を支援する可能性を秘めていますが、いくつかの限界も見られます。GPT-4をより良く活用するために、研究者に以下の提言をします：

- 出力の検証：出力検証：GPT-4 は偏微分方程式を解き、陽解法を提供するという人間のような能力を示しますが、間違った導出が行われる場合があります。研究者は，GPT-4を使って偏微分方程式を解く際には，注意してモデルの出力を検証してください．

- 幻覚の認識 : GPT-4は、存在しない文献を誤って引用することがあります。研究者は、モデルによって提供される情報の正確さと信頼性を保証するために、引用をクロスチェックし、この制限に注意する必要があります。

今後の展望

本研究では、様々な自然科学領域におけるLLMの能力と限界について調査しました。

著者らの主な目的は、最先端のLLMであるGPT-4の初期評価と、科学的発見に貢献する可能性を提供することであり、複数の分野の研究者にとって貴重なリソースとツールとしての役割を果たすことです。広範な分析を通じて、GPT-4が文献合成から物性予測、コード生成に至るまで、数多くの科学的タスクに精通していることを強調しました。

その素晴らしい能力にもかかわらず、GPT-4（および同様のLLM）の限界を認識することが不可欠です。例えば、特定のデータ形式を扱う際の課題、応答の矛盾、時折の幻覚などです。著者らの研究は、自然科学の領域におけるGPT-4の可能性を理解し、評価するための重要な第一歩になると信じています。

GPT-4の長所と短所の詳細な概要を提供することで、研究者がGPT-4（または他のLLM）を日常業務に取り入れる際に、十分な情報に基づいた決定を下し、その限界に留意しながら最適な適用を確保することを目的としています。さらに、著者らは、GPT-4や他のLLMのさらなる探求と開発を奨励し、科学的発見のための能力を高めることを目指します。そのためには、学習プロセスを改良し、分野特有のデータやアーキテクチャを取り入れ、様々な科学分野に合わせた特殊な技術を統合することが必要かもしれません。

人工知能の分野が進歩し続けるにつれて、GPT-4のような洗練されたモデルの統合は、科学研究とイノベーションを加速する上でますます重要な役割を果たすようになると予想されます。著者らの研究が研究者にとって貴重なリソースとなり、共同研究や知識の共有が促進され、最終的には科学的ブレークスルーの追求における GPT-4 や同様の LLM の幅広い理解と応用に貢献することを願っています。本章の残りのセクションでは、科学研究のために改善が必要な LLM の側面を要約し、科学的ブレークスルーの追求を前進させるために LLM を強化したり、LLM を基に構築したりする潜在的な方向性について議論します。

LLMの改善

LLMをさらに発展させて科学的発見に役立て、その限界に対処するためには、より詳細で包括的なアプローチが必要です。ここでは、先に提案した改善点について、より広範な議論を提供します：

- SMILESとFASTA配列処理の強化： SMILESおよびFASTA配列の処理におけるLLMの熟練度は、専用のトークン／トークナイザーおよび追加パラメータ（新しいトークンの埋め込みパラメータなど）とともに、これらの特定の配列タイプに焦点を当てた特別なトレーニングデータセットを組み込むことによって向上させることができます。さらに、SMILESとFASTA配列に特化したエンコーダーとデコーダーを採用することで、創薬や生物学研究におけるLLMの理解力と生成能力を向上させることができます。ここで重要なのは、新たに導入されたパラメータのみがさらなる学習を必要とし、事前に学習されたLLMの元のパラメータは凍結されたままでよいということです。

- 定量的タスク能力の向上 : 定量的なタスクにおけるLLMの能力を向上させるために、定量的な問題に特化したより専門的なトレーニングデータセットを統合したり、ドメイン固有のアーキテクチャやマルチタスク学習を取り入れたりすることで、薬物とターゲットの結合の数値予測や分子の特性予測などのタスクでより優れたパフォーマンスを発揮することができます。

- あまり研究されていないエンティティの理解の向上：転写因子など、あまり研究されていないエンティティの知識と理解を向上させるには、これらのエンティティに関連する、より専門的なトレーニングデータを取り入れる必要があります。これには、最新の研究成果、専門家がキュレーションしたデータベース、およびモデルがトピックについてより深く理解するのに役立つその他のリソースが含まれます。

- 分子・構造生成の強化： LLMが革新的で実行可能な化学組成や構造を生成する能力を高めるには、分子や構造の生成に関連する専門的なトレーニング・データセットや方法論を取り入れる必要があります。LLMを微調整し、化学的に有効で新規な分子や構造を生成する能力を強化するために、物理的先験に基づく学習や強化学習などのアプローチを利用することができます。さらに、分子や構造生成のための拡散モデルなど、特殊なモデルの開発は、これらの特定のモデルと相互作用するためのインターフェースとしてLLMと組み合わせることができます。

- モデルの解釈可能性と説明可能性の向上： LLMがより高度になるにつれて、その解釈可能性と説明可能性を向上させることが不可欠です。これは、研究者がLLMの出力をよりよく理解し、その提案を信頼するのに役立ちます。注意に基づく説明、特徴の重要性の分析、または反実仮想的説明などの技法を採用することで、LLMの推論と意思決定プロセスに対するより深い洞察を得ることができます。

これらの限界に対処し、提案された改善策を取り入れることで、LLMは様々な分野にわたる科学的発見のための、より強力で信頼性の高いツールとなります。これにより、研究者はLLMの高度な能力と洞察力の恩恵を受けることができ、創薬、材料科学、生物学、数学、その他の科学的探究の分野における研究とイノベーションのペースを加速させることができます。

前述の側面に加え、科学的な領域に限定されず、自然言語処理やコンピュータビジョンなどの一般的な領域に適用される、その他のいくつかの考慮事項に対処することが不可欠です。出力変動の低減、入力感度の緩和、幻覚の最小化などです。出力のばらつきと入力感度を低減することは、LLMの頑健性と、幅広いタスクにわたって正確な応答を生成する一貫性を高めるために極めて重要です。

これは、学習プロセスを改良し、強化学習などの技術を取り入れ、ユーザーのフィードバックを統合して、LLMの多様な入力やプロンプトへの適応性を向上させることで達成できます。LLMの出力の信頼性と信用性に直接影響するため、幻覚を最小限に抑えることも重要な側面です。対比学習、一貫性トレーニング、ユーザーフィードバックの活用などの戦略を導入することで、幻覚の発生を軽減し、生成される情報の全体的な質を向上させることができます。

これらの一般的な考慮事項に対処することで、LLMの性能をさらに向上させ、科学的な領域と一般的な領域の両方における応用において、LLMをより堅牢で信頼性の高いものにすることができます。これにより、様々な分野の研究者や実務家がより効率的かつ効果的に目的を達成できるよう支援できる、包括的で汎用性の高いAIツールの開発に貢献します。

LLMと科学的ツールの統合

HuggingGPT、AutoGPT、AutoGenなどのシステムで実証されているように、GPT-4や他のLLMの能力は、外部ツールや特殊なAIモデルを統合することで大幅に強化できるという証拠が増えつつあります。最先端の研究を促進し、様々な科学的領域における複雑な問題解決を合理化することができるため、専門的な計算ツールやAIモデルを組み込むことは、一般的なAIタスクよりも科学的タスクにとってさらに重要であると考えます。このアプローチの代表例は、Copilot for Azure Quantumプラットフォームに見出すことができます。このプラットフォームは、科学的発見を強化し、化学および材料科学の分野における研究の生産性を加速するために特別に設計された、化学の学習体験を提供します。このシステムは、GPT-4やその他のLLMのパワーと、科学出版物や計算プラグインを組み合わせることで、研究者がより高い精度と効率で難問に取り組むことを可能にします。研究者は、Copilot for Azure Quantumを活用することで、LLMの幻覚を減らし、その場で情報検索と洞察の生成を可能にする化学と材料科学のデータ基盤など、ニーズに合わせた豊富な高度機能を利用できます。その他の例としては、GPT-4と17の専門家が設計したツールを統合することで、有機合成、創薬、材料設計にまたがる化学タスクを達成するように設計されたLLMエージェントであるChemCrowや、GPT-3.5と適切なツールキット（テーブルサーチャー、インターネットサーチャー、予測器、ジェネレータなど）を統合して、新しい材料を生成し、それらの材料（有機金属骨格など）の特性を予測するLLMエージェントであるChatMOFなどがあります。結論として、科学的ツールとプラグインは、科学研究におけるGPT-4と他のLLMの能力を大幅に強化する可能性があります。このアプローチは、より正確で信頼性の高い結果を育むだけでなく、研究者が自信を持って複雑な問題に取り組む力を与え、最終的には科学的発見を加速し、化学や材料科学などの様々な分野にわたるイノベーションを促進します。

統一された科学的基礎モデルの構築

GPT-4は主に言語ベースの基礎モデルであり、膨大な量のテキストデータに対して学習されます。しかし、科学研究においては、テキスト情報以外にも数多くの貴重なデータソースがあります。例えば、薬物分子データベース、タンパク質データベース、ゲノムデータベースなどがあり、これらは科学的発見にとって非常に重要です。これらのデータベースには、30,000以上のアミノ酸と約180,000個の原子（および3x原子座標）から構成されるタイチンタンパク質のような大きな分子が含まれています。これらのデータソースをテキスト形式に変換すると、非常に長い配列になり、LLMが効率的に処理することが難しくなります。そのため、自然科学者の研究・発見を支援する科学基盤モデルの開発が極めて重要であると考えています。個々の科学領域を対象とし、限られたタスクセットに焦点を当てた事前学習モデルは存在しますが、統一された大規模な科学基盤モデルはまだ確立されていません。既存のモデルには

- ESM-xシリーズ（ESM-2、ESMFold、MSA Transformer、バリアント効果予測のためのESM-1v、逆フォールディングのためのESM-IF1など）は、事前に学習されたタンパク質言語モデルです。

- DNABERT-1/2、Nucleotide Transformers、MoDNA、HyenaDNA、RNA-FMは、DNAとRNAの学習済みモデルです。

- Geneformerは、約3000万個の単一細胞のトランスクリプトームのコーパスで事前に訓練されており、クロマチンやネットワークダイナミクスのようなネットワーク生物学の限られたデータでコンテキストに特化した予測を可能にします。

これらの研究に触発され、著者らは、できるだけ多くの科学的ドメインやタスクに対応し、マルチモーダルかつマルチスケールの入力をサポートできる、統一された大規模な科学基盤モデルの開発を提唱しています。GPT-4で示されたように、LLMの強さの一因は、スケールだけでなく、その幅の広さにあります。その結果、ドメイン横断的な統一科学基盤モデルを構築することは、これまでのドメイン固有モデルとの重要な差別化要因となり、統一モデルの有効性を大幅に高めることになります。

この統一モデルは、従来の大規模言語モデル（LLM）と比較して、いくつかのユニークな特徴を提供します：

- マルチモーダルデータ（テキスト、1次元配列、2次元グラフ、3次元立体構造）、周期・非周期分子系、様々な生体分子（タンパク質、DNA、RNA、オミックスデータなど）を含む多様な入力をサポート。

- 物理法則や第一原理をモデル構築や学習アルゴリズムに組み込むこと（データのクリーニングや前処理、損失関数の設計、オプティマイザの設計など）。このアプローチは、物理世界（およびその科学データ）と一般的なAI世界（NLP、CV、音声データ）の根本的な違いを認識します。後者とは異なり、物理世界は法則によって支配されており、科学データはこれらの基本的な法則の（ノイズの多い）観測を表しています。

- GPT-4のような既存のLLMのパワーを活用し、科学的ドメインのテキストデータを効果的に利用し、オープンドメインのタスク（学習中に未見）を処理し、研究者を支援するユーザーフレンドリーなインターフェースを提供します。

このような特徴を持つ統一された大規模な科学基盤モデルを開発することで、科学研究と発見の最先端技術を発展させることができ、自然科学者がより高い効率と精度で複雑な問題に取り組むことが可能になります。