最新AI論文をキャッチアップ

RNNベースのBiGRUを発展させたモデルが免疫の応答予測の精度向上を実現!

RNNベースのBiGRUを発展させたモデルが免疫の応答予測の精度向上を実現!

medical

3つの要点
✔️ 本論文で提案が行われたモデルであるTripHLApanは、免疫の反応に関連する予測を行うタスクにおいて精度の向上を実現
✔️
RNNのベースのモデルを発展させたBiGRUモジュール、Attention機構、転移学習を導入
✔️ IEBDという一般的なデータセットだけでなく、メラノーマという皮膚がんの細胞に関連するデータセットを用いた場合においても性能の向上を確認

TripHLApan: predicting HLA molecules binding peptides based on triple coding matrix and transfer learning
written by Meng WangChuqi LeiJianxin WangYaohang LiMin Li
(Submitted on 6 August 2022)
Comments: 25 pages, 7 figures
Subjects: Quantitative Methods (q-bio.QM); Machine Learning (cs.LG)


code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。 

イントロダクション

免疫分野における深層学習の活用

人はウイルスや細菌をはじめとする有害な異物から身を守るために、免疫系という仕組みを有しています。免疫系とは、白血球をはじめとする体内の様々な要素が協力し合って体を防御するシステムのことを指し、人が生存するためには欠かせない機構であることが知られています。近年、免疫系の仕組みを活用することによって、治療が難しいがんを治すための研究が進められています。

免疫系を構成する要素のうち、特に重要なものとしてHLAという分子があります。HLAは、細胞に取り込まれたペプチドという物質を別の細胞に提示することによって免疫の応答を誘導するような働きをする物質であり、免疫の反応を起こすために必要不可欠な構成要素となっています。近年では、免疫系の仕組みを解明し、HLAがペプチドをどのように提示するのかについての解明を行うための研究が進められています。

特に、HLAは自身の構成単位の配列に基づいていくつかのバージョンに分類することができます(このような異なる遺伝子のバージョンをアレルと呼びます)。それらの分類によってペプチドをどのように提示するかを正確に予測することは臨床において重要な課題となっています。

本論文では、一般的なデータセットを用いた実験に加えてメラノーマという皮膚がんの細胞のデータを活用した実験が行われており、本モデルが臨床に応用しうる可能性について示されています。

現在のツールの限界と問題点、研究の流れ

過去20年間の間に、HLAとペプチドの結合を予測するためのツールが数多く開発されていました。特にここ近年では深層学習を活用したモデルが活用されています。

しかし、これらのモデルは限られたHLAのアレル(バージョン)にのみ有効であり、実用的な精度という観点では不十分です(HLAはHLA-ⅠとHLA-Ⅱに分類されることが知られていますが、特にHLA-Ⅱにおいてこの傾向が顕著であると考えられています)。

また、HLAと結合するペプチドがある程度の長さ(9や10など)の場合は予測精度が良好ですが、ペプチドが長い場合はその長さを持つ学習サンプルが不足していることに起因して予測性能が大きく低下してしまうことが知られています。さらに、現在の手法ではデータ間の関連性(特にタンパク質間の配列の文脈情報)や生物学的な情報を十分に活用できないという課題があります。

そこで、これらの課題を解決するために本論文で提案されたのがTripHLApanです。

モデルの詳細

モデルの全体像

TripHLApanのワークフローの全体像を示したのが図のaになります。

TripHLApanのモデルでは、IEDBというデータベースからペプチドの配列とHLA分子の情報を取得し、文字列の形で表したものを入力データとしています(HLAとペプチドの各構成単位は、図に示すように英語一文字を用いて表現されています)。これらの入力データは学習に先立ってHLA分子とペプチドについて、さまざまな特性を考慮しつつ前処理を行っています。

なお、本実験ではまず訓練セットとテストデータセット、学習データに含まれないようなアレルを含むデータセット(以下、unseenなデータセットと定義します)が互いに重複しないようにデータを選択しています。

入力に用いた上記のデータは、AAIndex、Blosum62、Embeddingという三つの手法でエンコーディングを行っています。このような三つのエンコーディングの手法を並列させる過程を通じて、生化学的な特性や結合に関する物理的な情報など、表面的な配列情報からだけでは分からない、潜在的に存在する多角的な情報を得ることを可能としています。

エンコードされたモデルの出力は、BiGRUというモデルの入力に活用されています。

また、本論文のモデルでは、BiGRUのモデルにAttention機構を用いることによって、配列のうちどこが重要な点であるのかを学習に反映させています(本モデルにおいて、BiGRUモジュールとAttention機構を用いる理由は後述します)。

このようにして得られる三種類の行列は、結合されたのちに出力が行われます(最終出力に先だって全結合層やシグモイド層を用いています)。本モデルでは、このような並列化した複数のエンコーディング手法での学習が、アミノ酸の特性を多角的に活用することを可能にしていることが示されています。

BiGRUモデルの詳細と、なぜこのモデルを活用しているのか

BiGRU(Bidirectional Gated Recurrent Unit)モデルは、RNNモデルを発展させたモデルのひとつです。BiGRUの最大の特徴として、配列に対して順方向逆方向の両方で情報を処理する過程を含むことが挙げられます。

通常のRNNモデルのように一方向のみから学習を行う場合と異なり、文字列を順方向および逆方向から学習することによって、文字配列が持つ文脈の情報をより捉えることができるようになります。

また、BiGRUは、長期的な依存関係を把握するゲート機構が導入されています。さらにTripHLApanにおいてはBiGRUのモデルにAttention機構を付加しています。Attention機構は、配列が持つ重要性に応じて重みを再分配するような過程を含んでいるため、文脈の持つ情報を十分に反映させることが可能になります。

このようにBiGRUおよびAttention機構を活用することによって、HLAとペプチドの予測をするにあたって3D構造を十分に確保できない場合でも、配列の文脈情報を最大限学習に活用することができるようになります。本論文では特に直接HLAと結合するペプチドの末端部分が結合にどのように影響を与えるかを把握できるようになることが本モデルにおける最大の利点の一つだと考えられています。

転移学習の導入

また、図のbに示すように、本モデルでは長さが長いペプチドの訓練データが不足していることに伴う予測精度の低下への対策として、転移学習を導入しています。このような転移学習を導入している理由の一つとして、ペプチドの長さが8の場合に特殊な結合が起こることが知られています。

そのため、学習の初期にはペプチドの長さが9から14(すなわち、比較的長い場合のデータ)を活用してモデルの学習を行った後、その学習によって得られるモデルを使用してペプチドの長さが8の場合の予測を行うという仕組みをとっています。この仕組みをとることによって、ペプチドの長さが8より大きい場合に予測を行う際に、長さが8のデータの影響を受けずに学習を行うことができるようになり、特定のペプチドの長さのデータに過適合することを防止することが可能となります。

実験結果

図のbでは、陽性サンプルと陰性サンプルの比率を変えて(具体的には、左から4つのグラフで陽性と陰性の比が1:1、1:5、1:10、1:50となるような条件下で)BiGRUのAUCを測定する実験を行った実験結果を示しています。横軸は、実験に用いたペプチドの長さを示しています(本実験では、ある程度のペプチドの長さで分類をしつつ学習を行っています。)

図bは三段で構成されていますが、上の段がテストセットにおけるAUC、真ん中がunseenなデータセット(前述したように学習データに含まれないようなアレル(バージョン)を含むデータセット)を用いた場合のAUC、下段が転移学習を行いunseenのデータセットを用いた場合のAUCを示しています。青色部分が本論文で提案されているモデルについての評価指標を、その他の色の部分が従来のモデルについての評価指標を示したグラフとなっています。

この図より、あらゆるペプチドの長さにおいても新規手法が従来手法より良い性能であることが示されていますが、特にペプチドの長さが長い場合にそれが顕著であることが分かります。また、下段のグラフより、転移学習の有効性が分かります。

さらに図のcおよびdは、不均衡なデータセットを使用した際のモデルの性能評価指標であるAUPR、およびtop-PPVを示した図となっています。これにより、データに不均衡性を有する場合においてもその有効性が確かめられることが分かりました。

実験結果

上図では、単一のメラノーマに関連するデータセットを用いてテストを行い、様々なアレルのサンプルに対する予測ツールを用いてピアソン相関測定を行った結果を示しています(メラノーマとは、免疫療法の導入が検討されている皮膚がんの一種となります)。得られるピアソン相関係数の平均値(PCC)を縦軸として、実験に用いた細胞株は、いずれもメラノーマに関連しています(細胞株とは、研究の目的で継続的に培養されるような細胞の群を指します)。

PCCは、予測されたペプチドとHLAの結合の頻度が実際とどれほど相関しているかを測定するために用いられている指標です。本論文では、TripHLApanがあらゆるペプチドの長さとサンプルにおいて高いPCCを示すことが分かりました。

HLAはその働きに応じてⅠとⅡに分類することが知られています。先ほどまでの実験ではHLA-Ⅰを用いて性能が高いことを示していましたが、上図のようにⅡについてもTripHLApanのモデルが優れたAUC値を示すことが分かりました。HLA-Ⅱは、従来では限られたデータセットの場合にしか有効性が見られず十分な予測精度を確保することができなかったことから、HLA-Ⅱに対して特に本モデルが有効である可能性が示されています。

まとめ

HLA分子とペプチドは、分子の生物学的、統計的な特性を活用して適切な前処理を行った上で、複数の情報を統合し並列的にエンコーディングを行うこと、BiGRUのアーキテクチャAttentionモジュールを組み合わせること、および転移学習を行うことにより従来手法と比較した場合の精度が向上することが分かりました。これは、生物学的な特性や配列の文脈情報を多角的に利用することが可能になったためであると考えられます。

TripHLApanは、HLA-ⅠのモデルとHLA-Ⅱのモデルの比較を行った結果、一般的なデータセット、およびメラノーマという皮膚がんの細胞に関連するようなデータセットにおいて、現状の最先端の予測ツールを上回る性能を示しました。

今後の課題として、HLA-Ⅰとペプチドの結合予測において最も一般的なペプチドの長さが9のサンプルの予測をするうえでの改善が十分に見られていないということが挙げられます。そのため、今後は、現在では学習に活用することができていない3D構造をより重視する方法が重要であると考えられます。個人的には、転移学習を行う際にペプチドの長さを事前に指定した値(今回は8)とするだけでなく、より柔軟に設定できるようにすることが汎用性を高めるうえで大切なのではないかと考えました。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Anonymous avatar
現在は医療医学を学習しています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする