オミクスデータと患者データを統合!過学習を解決した深層学習モデルの提案

オミクスデータと患者データを統合!過学習を解決した深層学習モデルの提案

3つの要点
✔️ 遺伝子データをはじめとするオミクスデータでは、少ないサンプルで特徴量が高次元であるため、モデルが過学習になる問題が存在
✔️ 特徴量の多いゲノミクスデータと行列因数分解・AE を用いた次元削減を組み合わせた深層学習モデルを提案

✔️ オミクスデータと併用して得られる患者と生態学的知見への制約を学習に追加することで、過学習を防ぎ、汎化性能の高いモデルを提案

Integrate multi-omics data with biological interaction networks using Multi-view Factorization AutoEncoder (MAE)
written by Tianle Ma & Aidong Zhang 
(Submitted on 20 Dec 2018)
Comments: Published by BMC Genomics volume 20, Article number: 944 (2019).
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)

背景

ここでは、本研究で取り扱われている「オミクス」を概説した後、研究のポイントについて述べていきます。

オミクスとは?

オミクスは、一言で言うと、生体分子を網羅的にまとめた情報のまとまりのことです。オミクスは、ギリシャ語で、ome (網羅的)と -ics (学問) を合わせた造語です。いわゆる、セントラルドグマに関わる、ゲノム、トランスクリプトーム(RNA) 、プロテオーム(タンパク質)を始め、 メタボローム(代謝物質)やセローム(細胞での発現)等の情報を相互に関連したネットワークとして捉え、解析を行います。

オミクスが最初に登場したのは、1950年代の DNA の二重螺旋構造が発表された時と言われています。その後、1960年代になってセントラルドグマの提唱、1990年代のヒトゲノム計画等のプロセスを経て、2000年代のバイオインフォマティクスの台頭から注目され始めています。

オミクスの特徴として、Case Control での比較による解析、仮説検証よりも Data driven な解析が多いことが考えられます。その理由としては、従来のレベル単体で得られる以上の知見を獲得することが目的の一つであるためです。特に、様々なレイヤーのオミクスを相互的に解析する、マルチオミクス解析では、あらかじめ仮説を立てて、検証するといったアプローチをすることが現状として難しく、データから何を得られるかと言う点に焦点が当てられる傾向があります。

研究のポイント

本研究では、  こうしたオミクス解析の傾向としてよく取り上げられる、「big p, small n」問題に着目しています。これは、オミクス における特徴量がサンプル数を大きく上回ってしまう問題です。特に、ゲノムにおいては、遺伝子数が膨大に存在するため、特徴量を超えるサンプルを収集するのが困難であり、こうした問題が発生します。また、深層学習では、多くのトレーニングデータを必要とするため、サンプルサイズが小さく機能も不透明なマルチオミクスデータに適用するのは困難であることが予想されます。

 

こうした問題に対して、マルチオミクスデータ(特にゲノミクス)と患者個々のデータを組み合わせたネットワークモデルを提案しています。個々の患者に関する潜在空間を構成し、類似した症状を持つネットワークを構築します。こうしたデータを含めることで、膨大な特徴量による過学習を防ぐことを目的にしています。

この記事をシェアする