DNA解析から遺伝子発現予測、大規模言語モデルによる生物情報学への応用

Large language models 2024年08月21日

3つの要点
✔️ DNA解析やゲノム機能の理解を高めるゲノムの複雑な特性を予測する能力を示唆
✔️ DNAの変異効果をゲノム全体にわたって正確に予測することで、遺伝学研究の新たな可能性を示唆
✔️ エンハンサーやプロモーターなどの重要な調節配列を正確に特定し、遺伝子の発現調節研究に貢献

Large language models in bioinformatics: applications and perspectives
written by Jiajia Liu, Mengyuan Yang, Yankai Yu, Haixia Xu, Kang Li, Xiaobo Zhou
(Submitted on 8 Jan 2024)
Comments: Published on arxiv.
Subjects: Quantitative Methods (q-bio.QM); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

自然言語処理の分野は、OpenAIのGPT-XやGoogleのBERTなどの大規模言語モデルの登場によって、飛躍的な進化を遂げています。これらの先進的なモデルは、人間の言語を理解し、生成する能力を極限まで高め、日常的なコミュニケーションやビジネスプロセスに革命をもたらしています。

大規模言語モデルは、インターネット上の膨大なテキストデータを学習することで、言語の複雑さと文脈を習得し、これにより、テキストの意味を深く理解し、適切に反応する能力を身につけています。これらのモデルの基盤となるのは、「トランスフォーマー」と呼ばれる画期的なニューラルネットワークアーキテクチャです。これは、テキストの長距離依存関係を捉えながら、処理の並列化とスケーラビリティを実現しています。

特に注目すべきは、トランスフォーマーが採用する「自己注意メカニズム」です。これは、文章を解釈する際に各単語の重要性を評価し、より深い文脈の理解を可能にします。この技術は、モデルが顕著なパフォーマンスを発揮するための鍵となっています。

学習は「事前学習」と「ファインチューニング」の2段階で行われます。事前学習では、広範囲にわたるテキストコーパスを用いて文法や事実の知識、推論力を身につけています。また、ファインチューニングを通じて、これらのモデルは特定のタスク（翻訳や要約、質問応答など）に特化して最適化されます。その適応性により、特定のアーキテクチャに依存せずとも、様々な自然言語処理タスクに対応できます。そして、多岐にわたる分野で応用できる可能性があります。

この論文では、大規模言語モデルが多様な課題に対してどのように応用が可能かを調査しています。非常に多くの事例が紹介されているため、この記事では、抜粋して紹介しています。

大規模言語モデルのバイオインフォマティクスでの応用例

生物学的研究では、DNAに埋め込まれた言語を解読し、隠されたコードを明らかにすることが長い間、一つの大きな目標でした。特に、DNAからタンパク質への翻訳を示す普遍的な遺伝子コードの解読は、BERTやGPTといった最新のアーキテクチャを用いたモデルを通じて進展を遂げています。

DNABERTは、多様な自然言語処理タスクで認められている堅牢な注意ベースのトランスフォーマーアーキテクチャを利用しています。また、その進化版であるDNABERT-2は、より効率的なトークナイザーや入力長の制約に対処する新たな戦略を導入し、モデルの機能を向上させています。DNABERT-2はゲノム理解評価（GUE）という、多種ゲノム分類用の包括的なデータセットを導入しまています。このモデルは、前モデルと比べて3倍の効率向上を達成し、使用した28のデータセット中23で改善された結果を示しています。

また、GROVERはバイトペアトークナイゼーションを採用したDNA言語モデルで、人間のゲノムを詳細に分析しています。このモデルは、トークン間の文脈関係を識別し、機能ゲノミクス注釈に関連するゲノム領域構造の特定を助けます。GROVERのユニークなアプローチは、ゲノムの複雑性を探る研究者にとって非常に貴重です。

さらに、GPTシリーズの成功を受けて開発されたDNAGPTは、GPTベースのDNAモデルとして、100億塩基対以上のデータセットで事前訓練され、様々なDNAシーケンス解析タスクに微調整が可能です。また、ヌクレオチドトランスフォーマーは、異なるサイズの4つの言語モデルを開発し、複数の種を対象とした3つの異なるデータセットで事前学習を行っています。

これらの事前学習されたモデルは、プロモーター領域、エンハンサー領域、シス調節要素、スプライス部位、転写因子結合部位の予測など、多岐にわたるシーケンス予測タスクに応用されています。

大規模言語モデルのバイオインフォマティクスでの応用例の1つは、ゲノム全体の変異効果を予測するDNA配列言語モデルです。DNAの変異がもたらす生物多様性の重要性は計り知れません。これを解明するため、ゲノムワイド関連研究（GWAS）が重要な役割を果たしていますが、因果変異を特定することが大きな課題となっています。この課題に対応するために開発されたゲノミック事前学習ネットワーク（GPN）は、教師なしの事前学習を通じて、ゲノム全体の変異効果に関する知識を獲得することを目指しています。GPNは、特定の位置をマスクした512ベースペアのDNA配列を用いてヌクレオチドを予測し、特に稀な変異の効果を正確に捉えることに優れています。これにより、様々な種のDNA配列から変異効果を予測する能力を示しており、この技術はDNA配列の突然変異と生物学的多様性との複雑な関係を理解するための継続的な研究を支援しています。

2つ目は、シス調節領域を予測するDNA配列言語モデルです。遺伝子の発現を調節するシス調節配列、特にエンハンサーやプロモーターの同定は、発達や生理機能への影響を考えると、極めて重要です。これらの配列を特定することは大きな挑戦であり、DNABERTやGROVERなどの事前訓練モデルがその精度を高めるために開発されました。例えば、BERT-Promoterはプロモーターの活動を特定するために事前訓練されたBERTモデルを用い、高度な機械学習アルゴリズムを適用して最終的な予測モデルを構築します。一方、iEnhancer-BERTはエンハンサー予測を強化するためにDNABERTを基にした転移学習アプローチを採用し、畳み込みニューラルネットワークを使用して特徴ベクトルを分類します。これらのモデルは、遺伝子発現の背後にあるメカニズムを解明し、新たなDNAエンハンサーの特定に向けた有望な進展を示しています。

3つ目は、DNA-タンパク質相互作用の予測です。DNAとタンパク質の相互作用を正確に特定することは、遺伝子の発現調節や進化過程を理解する上で不可欠です。この重要なタスクに対処するため、DNABERT、DNABERT-2、GROVERなどのモデルが開発されており、これらはChIP-seqデータを基にタンパク質-DNA結合を予測します。また、TFBertは最小限のファインチューニングで高い性能を発揮する事前訓練モデルです。このモデルはDNAを自然言語のように扱い、文脈情報を効果的に抽出することで、タスクを効率的に遂行します。一方、MoDNAフレームワークは共通のDNA機能モチーフを取り入れ、自己監督型事前訓練を通じてゲノム表現を獲得し、プロモーター予測や転写因子結合部位の予測に貢献します。

4つ目は、DNAメチル化の予測です。DNAメチル化は遺伝子のエピジェネティックな調節において中心的な役割を果たすプロセスです。メチル化のパターンは疾病の診断や治療において重要なマーカーとなり得ます。複数の進化したモデル、特にBERT6mA、iDNA-ABT、iDNA-ABF、およびMuLan-Methylは、メチル化のさまざまな形態を予測し、これらの洞察が新しい治療法の開発につながる可能性があります。これらのモデルは、高度な特徴表現と学習アルゴリズムを活用して、DNAメチル化の複雑なパターンを解析します。

大規模言語モデルのトランスクリプトームでの応用例

DNAに関するBERTベースの言語モデルの開発が進む中、同源配列からの進化情報の正確な把握が課題となっています。特に、保存性の低いRNA配列に対応するため、RNA-FMとRNA-MSMという2つの革新的なRNA基盤モデルが登場しています。

RNA-FMは自己監督学習を活用し、2300万の非コーディングRNA配列を含む広範なデータセットを用いてRNAの二次構造や3D構造を予測します。このアプローチにより、RNA-FMはRNA配列の様々な構造情報を効果的に捉え、これらの配列の特徴に関する包括的な理解を提供します。

一方で、RNA-MSMはRNAcmapから自動的に収集した同源配列を利用しています。このモデルは特に2Dのベースペアリング確率と1Dの溶媒アクセシビリティの精確なマッピングに優れており、RNAの構造と機能に関連する多様な下流タスクのためにファインチューニングが可能です。

大規模言語モデルのトランスクリプトームでの応用例の1つは、RNA配列言語モデルを用いたRNAファミリー分類と二次構造の予測です。RNAの二次構造予測は、RNAの折りたたみ規則を深く理解するために、科学者たちが直面する大きな課題です。この課題を解決するために開発されたRNABERTは、RNA標的薬の開発を含む多くの応用に貢献する可能性があります。このモデルは、トークン化、位置エンベディング、トランスフォーマーモデルを組み合わせ、特にRNAの二次構造の予測とRNAファミリー分類に特化しています。複雑なRNAの折りたたみ規則を理解し、未知のRNA配列を既存のファミリーに迅速に分類するこの能力は、新しいRNA分子の研究において重要な進歩をもたらします。RNABERTの利用は、RNA構造予測だけでなく、RNA生物学全体の理解を深めるための重要な手段となります。

2つ目は、RNAスプライシングを予測するために使用されるRNA配列言語モデルです。RNAスプライシングは、真核生物における遺伝子の発現に不可欠なプロセスです。このプロセスをよりよく理解するために、SpliceBERTという事前学習されたモデルが開発されました。このモデルは、多様な脊椎動物の前駆体メッセンジャーRNA配列を使用して学習され、スプライス部位の機能特性と進化情報を組み込んでいます。SpliceBERTは、RNAスプライシングの微妙なニュアンスを捉えるだけでなく、スプライスを妨げる潜在的な変異を特定する手助けをします。このモデルは、変異の影響を評価し、重要な遺伝的変異を効率的に特定し優先順位付けするのに役立つデータ駆動型のアプローチを提供します。この能力は、RNAスプライシングへの影響を理解しようとする研究者にとって貴重なリソースとなります。

3つ目は、RNA修飾を予測するために使用されるRNA配列言語モデルです。RNAの転写後修飾は、細胞内で重要な役割を果たし、特にN7-メチルグアノシン（m7G）のような修飾は、遺伝子発現の調節に不可欠です。高スループット実験は正確だがコストが高く、時間もかかります。これに対応するために、BERT-m7Gは計算モデルとして登場し、RNA配列からm7G部位を効率的に特定します。このツールは、実験的アプローチの負担を軽減し、m7Gが遺伝子の機能にどう影響するかの理解を深めるのに貢献しています。さらに、2’-O-メチル化（Nm）という他のRNA修飾も細胞プロセスに重要であり、Bert2Omeはこの部位をRNA配列から直接予測する効率的な計算ツールです。BERTベースのモデルを畳み込みニューラルネットワーク（CNN）と組み合わせて使用することで、RNAの修飾部位とその機能的な関係を高い精度で識別します。この方法は、実験的手法にかかる時間を大幅に削減し、転写後修飾の新たな理解を支援します。

4つ目は、タンパク質発現とmRNA分解を予測するために使用されるRNA配列言語モデルです。mRNAワクチンは、そのコスト効率の良さと迅速な開発可能性で注目されています。CodonBERTは、特にmRNA配列のタンパク質発現を予測するために設計され、マルチヘッドアテンショントランスフォーマーアーキテクチャを用いて広範囲のデータセットで事前訓練されています。この事前訓練により、CodonBERTはmRNAのタンパク質発現や分解の予測に優れた性能を発揮し、mRNAワクチンの設計において新しい生物学的情報を取り入れる能力があります。このモデルは、予防接種の分野での新たな可能性を開くと同時に、ワクチン開発の効率化に貢献しています。

大規模言語モデルのタンパク質研究での応用例

タンパク質は、生命の維持に不可欠な分子であり、多様な生理プロセスを支える基盤となっています。科学が進展するにつれ、タンパク質データの蓄積も増大しています。このようなデータから有益な情報を抽出するため、大規模言語モデルが有効な手段として登場しています。

これらのモデルは、事前に訓練されたタンパク質言語モデル（PPLM）として知られ、タンパク質配列や遺伝子オントロジーの注釈、プロパティ記述などのデータから特徴を学習します。学習した特徴は、タンパク質の構造予測、翻訳後修飾（Post-Translational Modifications, PTM）、生物物理的特性の評価といった様々なタスクに応用されます。

抗体もタンパク質の一種ですが、その研究に用いられるデータセットやタスクは一般のタンパク質とは異なります。観察された抗体空間（Observed Antibody Space, OAS）データベースの充実により、治療抗体の結合機構や免疫の進化、新たな抗体の発見など、抗体に特化した大規模言語モデル（PALM）の開発が進んでいます。これらのモデルは、抗体の特定部位（パラトープ）の予測やB細胞の成熟過程の分析、抗体配列の分類など、多岐にわたるタスクに活用されています。

大規模言語モデルのタンパク質研究での応用例の1つは、タンパク質の二次構造と接触予渲のためのタンパク質言語モデルです。タンパク質の構造は、その機能と相互作用において極めて重要な役割を果たしています。しかし、従来の実験室技術でのタンパク質構造分析は時間と労力がかかるプロセスです。この問題を解決するため、ディープラーニング技術の進歩により、タンパク質構造を予測するための大規模言語モデルが登場しています。たとえば、MSA Transformerは複数の配列アラインメントを用いて、入力配列に対して独自の行と列の注意機構を適用するモデルです。このモデルは従来の教師なしアプローチを上回る性能を示し、パラメータ効率も向上しています。また、ProtTransはUniRefおよびBFDからのデータを使用して、複数のモデルを学習しており、これにより二次構造の予測において顕著な進歩が達成されています。

2つ目は、タンパク質配列生成のためのタンパク質言語モデルです。タンパク質の生成技術は、薬剤設計やタンパク質工学など、広範囲にわたる応用が可能です。最新の大規模言語モデルは、タンパク質配列を生成する際に、特定の機能的特性を持つ安定した三次元構造を形成する能力を持っています。ProGenモデルは、UniprotKBのキーワードを条件付きタグとして使用し、1,100以上の用語を含む豊富な語彙でタンパク質配列を生成します。さらに、ProtGPT2は自然界のアミノ酸の原則に従ったタンパク質を生成し、その多くが球状の特性を示します。AlphaFoldを使用した際には、これまでデータベースに存在しなかった新しいトポロジーを持つ構造が明らかになり、ProtGPT2がタンパク質特有の言語を習得していることが示されています。

3つ目は、抗原受容体結合および抗原-抗体結合予測のための抗体大規模言語モデルです。抗原タンパク質は細胞質内で分解され、新規抗原ペプチドを形成します。これらのペプチドは主要組織適合性複合体（MHC）に結合し、pMHC複合体を形成して細胞膜へと運ばれ、提示されます。T細胞受容体（TCR）はこれを認識し、B細胞が特定の抗体を産生することを刺激し、免疫応答が引き起こされます。このプロセスで重要なのは、ペプチドがHLA分子にどれだけ正確に結合するかを予測することです。

たとえば、MHCRoBERTaは、入力されたアミノ酸配列を基に、異なる対立遺伝子間の区別を可能にしますが、このモデルは特にpMHC-Iの結合予測に特化しています。一方で、BERTMHCは、2,413のMHC–ペプチドペアを含むデータを用いて学習され、pMHC-II結合予測においてこれまでのギャップを埋める進歩を見せています。

また、適応免疫受容体（AIR）の抗原に対する結合特異性を予測することも大きな目標の一つです。この特異性は主にCDR1-3と呼ばれる3つの補完性決定領域のループの柔軟性によってもたらされ、TCR-BERTは未ラベルのTCR CDR3配列からTCRの一般的な表現を学習し、抗原特異性を予測します。しかし、このモデルはAIRのペアの相互作用を理解することには成功していませんでした。この問題は、Jianhua Yaoらによって特別に設計されたBERTモデル、SC-AIR-BERTを用いることで効果的に解決され、TCRおよびBCRの抗原結合特異性予測タスクで他の方法を上回る結果を示しています。

抗体言語モデルに関する最新の研究も注目されています。例えば、AbLangはRoBERTaに基づいて構築され、特定の課題、特にシークエンシングプロセス中に失われた残基の復元に焦点を当てています。このモデルは、抗体配列中の欠損残基を正確に復元する能力において、他のモデルを上回っています。

さらに、AntiBERTaはタンパク質配列から得られた潜在ベクトルを利用して、抗体の「言語」をある程度理解し、抗体のB細胞起源の追跡や免疫原性の定量化、結合部位の予測など、多様なタスクを効果的にこなします。EATLMは、追加の事前学習タスクを導入することで、特定の生物学的メカニズムを取り入れる新しいアプローチを提供しています。

大規模言語モデルの薬剤発見での応用例

薬剤発見は成功率が低く、費用がかかり、時間を要するプロセスとして知られています。この初期段階で、経験や専門知識を活かしたアルゴリズム、機械学習、そして深層学習を組み合わせたコンピュータ支援薬剤発見が、薬剤分子やリード化合物の生成とスクリーニングを加速しています。これにより、特に小分子薬の開発プロセス全体が速められ、市場に出る薬剤のほとんど（最大98%）が小分子薬であることが多いです。

小分子薬はその構造が優れた空間分散性を持ち、化学的性質によって薬剤様性質や薬物動態学的性質が良好であるとされます。深層学習の進化と大規模言語モデルの導入により、これらの手法を使って、小分子やタンパク質、RNAなどのターゲットとの間に存在する分子のパターンや相互作用を発見することが容易になりました。

具体的には、分子を表すためにSMILES文字列や化学フィンガープリントが一般的に使用されます。さらに、グラフニューラルネットワーク（GNN）のプーリングプロセスを利用することで、小分子を順次表現に変換し、大規模言語モデルはこれらの情報を基に薬剤発見のさまざまな局面で活動します。このようにして、新しい薬剤の発見に向けた効率と精度が向上しています。

このアプローチは、薬剤発見の領域におけるコスト削減とプロセスの高速化に大きく寄与し、未来の医療に新たな可能性をもたらしています。

大規模言語モデルの薬剤発見での応用例の1つは、膨大な数の薬剤様化学空間（推定で10の63乗以上の化合物）をカバーすることは、現実的な課題として非常に困難です。従来のバーチャルスクリーニングライブラリでは10の7乗未満の化合物しか含まれておらず、時には利用可能でないこともあります。この問題に対処するため、ディープラーニング手法が薬剤様特性を持つ分子を生成する有効なアプローチとして注目されています。特に、生成前学習モデルGPTに触発されたMolGPTモデルは、次のトークン予測のタスクだけでなく、条件付き予測の追加訓練タスクを取り入れることで、条件付き生成の能力を拡張しています。このモデルは革新的で効果的な分子を生成するだけでなく、データセット内の統計的特性を把握する能力も強化しています。

大規模言語モデルの薬剤発見での応用例の2つ目は、がんや感染症、神経障害などの複雑な疾患に対する組み合わせ療法は一般的で、しばしば単一薬剤治療を超える効果を示します。薬剤ペアの相乗効果を正確に予測することは、治療効果を向上させるために不可欠ですが、多数の薬剤組み合わせと複雑な生物学的相互作用のために挑戦的です。この分野で、Wei Zhang氏らによって開発されたDCE-DForestモデルは、事前訓練された薬剤BERTモデルを用いて薬剤のSMILESをエンコードし、ディープフォレスト手法を用いて薬剤と細胞株の埋め込みベクトルから相乗効果を予測します。さらに、Mengdie Xua氏らは事前学習された大規模言語モデルを微調整し、二重特徴融合メカニズムを用いることで、薬剤ペアの相乗効果を効果的に予測しています。これには薬剤の分子フィンガープリント、SMILESエンコーディング、細胞株の遺伝子発現データが含まれており、除去分析によりフィンガープリント入力が薬剤相乗効果予測の品質を高める重要な役割を果たしていることが確認されています。

大規模言語モデルの単一細胞解析での応用例

単一細胞RNAシーケンシング（scRNA-seq）は、ゲノミクスおよび生物医学研究における新たな時代の始まりを告げています。従来のバルクRNAシーケンシングとは異なり、scRNA-seqは単一細胞レベルでの遺伝子発現の詳細を解明することが可能で、これにより未曾有の洞察が得られ、多くの画期的な進歩が実現しています【127-130】。この技術により最も注目される変化の一つは、組織や生物体内の細胞の多様性を詳細に把握できることです。従来の方法では見過ごされがちだった多様な細胞タイプや希少な細胞状態も、scRNA-seqを通じて明らかになります。

前述したように、大規模言語モデルはゲノミクス、トランスクリプトミクス、プロテオミクス、薬剤発見といった様々な分野で成功を収めています。ここでは、単一細胞解析の分野において、これらのモデルがどのように応用されているかを紹介しています。単一細胞言語モデルは、細胞タイプや状態の特定、新しい細胞集団の発見、遺伝子調節ネットワークの推定、さらには単一細胞マルチオミクスデータの統合といった多岐にわたる下流タスクに利用可能です。

大規模言語モデルの単一細胞解析での応用例の1つは、scRNA-seqデータに基づく単一細胞クラスタリングのための単一細胞言語モデルです。単一細胞RNAシーケンシング（scRNA-seq）による細胞クラスタリングは、生物学的サンプル内の細胞の多様性を解読するための重要な手法です。これにより、個々の細胞を遺伝子発現プロファイルに基づいてクラスタに分けることが可能になります。大規模言語モデルを利用することで、異なる組織や種からの広範なscRNA-seqデータを用いて効率的なクラスタリングが実現します。例えば、tGPTモデルは高発現遺伝子に基づく特徴表現を学習し、これをHuman Cell AtlasやTabula Murisなどの大規模データセットでの細胞クラスタリングに応用しています。また、scFoundationは、トランスフォーマーベースのエンコーダデコーダ構造を利用して、非マスクかつ非ゼロの遺伝子データから細胞の埋め込みを学習し、これをクラスタリングに活用します。

2つ目は、scRNA-seqデータに基づく遺伝子機能解析のための単一細胞言語モデルです。大規模言語モデルは遺伝子機能解析にも応用されています。これらのモデルは、トランスフォーマーのアテンション機構を利用して遺伝子間の関係を学習し、事前訓練およびファインチューニングを通じて遺伝子の埋め込みを生成します。これらの埋め込みは、遺伝子発現予測や遺伝的摂動予測に利用されることがあります。scGPTはゼロショット学習を用いた特徴抽出器として機能し、遺伝子調節ネットワークの推論に貢献します。一方、Geneformerは広範囲の単一細胞トランスクリプトームデータに基づいて訓練され、クロマチンダイナミクスやネットワークダイナミクスの予測など、様々な下流タスクのためにファインチューニングされます。これらのモデルは、限られたデータを持つタスク固有のモデルへの事前訓練された重みの移行を通じて、精度の高い予測を実現します。

3つ目は、単一細胞マルチオミクスデータのための単一細胞言語モデルです。単一細胞多オミクスデータの研究は、ゲノミクス、トランスクリプトーム、エピゲノム、プロテオームなど、異なるオミクス技術の情報を単一細胞レベルで統合することにより、単一オミクスデータタイプの研究と比較して多くの利点を提供します。こうしたデータの解析では、大規模言語モデルがその適応性、一般化能力、そして特徴抽出能力を活かし、データのばらつき、希少性、細胞の異質性といった課題への解決策を提供しています。

scGPTというモデルは、scMulti-omicsデータを統合する際、異なるシーケンシング手法を示すトークンセットを用いてデータセットの多様性を扱います。これらのモダリティトークンは、遺伝子やタンパク質といった入力特徴と関連付けられ、データ処理の精度を高めるためにトランスフォーマー出力に組み込まれます。この工夫は、同じモダリティ内での特徴に過度な注意を払うことを防ぎつつ、異なるモダリティの特徴を適切に評価することを可能になります。

特に注目すべきはscMVPというツールで、これは単一細胞RNA-seqとATAC-seqデータの統合に特化して設計されており、これにより遺伝子の発現とクロマチンアクセシビリティが同一細胞内で分析されます。scMVPは、これらのデータを潜在空間に投影し、細胞タイプガイド付きの注意機能を用いてデータ間の相関を計算します。一方、DeepMAPSはscRNA-seq、scATAC-seq、CITE-seqを含むscMultiomicsデータから生物学的ネットワークの推論とデータ統合を目的としたグラフトランスフォーマーベースの手法です。この方法では、遺伝子や細胞をノードとするグラフを構築し、地域的および全体的な特徴を学習して細胞間や遺伝子間の関係を構築します。

また、scTranslatorは、単一細胞トランスクリプトームデータからプロテオームデータへの変換を可能にし、予測されたタンパク質と実際のタンパク質間の差を最小限に抑えることで、タンパク質の豊富さを正確に推測します。scMoFormerは、遺伝子発現からタンパク質の豊富さへの変換だけでなく、多オミクスデータの予測にも応用され、異なる生物学的情報間のダイナミックな相互作用を解明します。

このように、大規模言語モデルは単一細胞解析の分野においても重要な役割を担い、研究の可能性を広げています。これらの進化するツールは、生物学的複雑性を解明し、精密医療への道を拓くための新たな可能性を示唆しています。

まとめ

事前に学習された大規模言語モデルは、生物学の多様な課題に革新をもたらしています。この論文では、ゲノミクス、トランスクリプトミクス、プロテオミクス、シングルセル解析、薬物発見など、さまざまな分野での大規模言語モデルの応用事例を調査しています。

大規模言語モデルはDNAとRNAの配列を解析し、これに基づいて修飾や調節の予測が可能です。また、タンパク質の構造予測や相互作用予測など、プロテオミクスの分野でも大きな進展を遂げています。特に、scRNA-seqやscMulti-omicsデータから得られる情報を利用して、細胞タイプの識別やデータセットの統合、遺伝子関連の機能分析の予測に貢献しています。

薬物発見においても、大規模言語モデルは分子の性質を予測し、新しい分子の生成や薬物の相互作用の予測に利用されています。例えば、DNABERTはDNA解析に特化して訓練されており、RNA解析にも応用されることがあります。M6A-BERT-Stackingなどのモデルは、RNA修飾サイトの特定に特化しており、精度の高い予測が可能です。

また、タンパク質研究の分野では、シーケンスデータを基にしたタンパク質言語モデルが、タンパク質の機能を詳細に解析し、研究者にとって有益な情報を提供します。しかし、これらのモデルは大量のパラメータを必要とするため、デプロイメントには課題が伴います。一部の解決策として、大規模モデルをオンラインで活用する方法や、蒸留を用いたアプローチが考えられます。

このように、大規模言語モデルは分子生物学の複雑な問題を解析する強力なツールとして、その可能性を広げています。DNAの変異やmRNAの量の分析から、新たな因果関係の発見に至るまで、今後の発展が期待されています。

さらに、大規模言語モデルの発展は、タンパク質の3D構造情報のような多様な情報モダリティの統合に新たな課題をもたらしています。これらの情報をシーケンスベースの形式に変換するアプローチや、複数の大型モデルを統合してマルチモーダル情報を捉える方法が研究されています。これには、マルチモーダル融合技術やタイミングの選定が重要です。

薬物発見の分野では、大規模言語モデルの使用により分子のシーケンス情報だけでなく、その空間的構造に基づいた予測が求められるようになり、予測の正確性を高めるための新たなモデル構築が進んでいます。例えば、CrossDocked2020データセットを用いた大規模グラフモデルなどが開発されています。

さらに、大規模言語モデルはタンパク質間相互作用（PPI）や細胞間相互作用（CCI）の予測から得られた知見を薬物-標的相互作用（DTI）の予測に応用することが可能です。この技術は、薬物分子の生成においても有効性や新規性などの特性を考慮しながら進化しています。

単一細胞解析における大規模言語モデルの応用は、特にscRNA-seqデータの希少性の問題を軽減し、大規模な遺伝子発現データを基にしたモデルの訓練を効率化しています。遺伝子の位置情報の定義や、異なるシーケンシング技術からのデータ統合におけるバッチ効果の克服も重要な課題となっています。グラフニューラルネットワーク（GNN）とトランスフォーマーの組み合わせは、単一細胞解析における革新的な進展を促しており、複雑な細胞-遺伝子相互作用の解析に貢献しています。

また、DeepMAPSは細胞と遺伝子間の相互作用を理解するために、グラフトランスフォーマーを用いて細胞内の遺伝子の重要性を評価するモデルです。この技術は、グラフニューラルネットワーク（GNN）とトランスフォーマーの組み合わせを活用し、単一細胞データ内に存在する複雑な関係や依存関係を包括的に表現します。GNNは細胞の近傍での局所的相互作用を捉えるのに適しており、トランスフォーマーはより広範な依存関係を効果的に捉えることができます。

この相乗効果は、細胞の全体的な景観を理解し、特徴学習を向上させるのに役立ちます。結果として、大規模言語モデルは、事前のドメイン固有の知識がなくても、生データから遺伝子発現パターンや細胞タイプなどの関連情報を効果的に学習することができます。

今日の大規模言語モデルは、分子生物学の複雑さをモデル化する能力において、非常に洗練されたレベルに達しています。単一細胞技術の進化や、プロテオミクス、メタボロミクス、リピドミクスを含むオミクス科学の発展は、より効率的な測定技術の向上を可能にしています。これにより、DNAから人間生理学の詳細に至るまでの分子層の複雑性を解明する能力が強化されています。

最先端技術の領域をさらに探求することで、分子レベルでのダイナミックな相互作用の包括的な理解へと繋がる新たな洞察が得られることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。