オミクスデータから、画像を生成！？　がんに対する画像生成手法を提案

medical 2021年05月28日

3つの要点
✔️ 複数の因子が相互に絡み合う多因子疾患の増加に伴い、遺伝やタンパク質といったオミクス解析に注目が集まる一方、データの高次元性から、統計的な解析をはじめとした、従来手法では、的確な解析をおこなうことが難しいと指摘
✔️ こうしたオミクスデータの高次元性を解消するために、深層学習—特に画像解析分野でのアルゴリズム—の導入に注目し、分子の特徴、およびデータベース上のデータを用いて、2次元の画像として解析するOmicsMapNetアプローチを提案
✔️ がんのデータセット（TCGA）の分類問題において、従来手法よりも高い精度、特に、より重症度の高いがんの分類性能を達成

OmicsMapNet: Transforming omics data to take advantage of Deep Convolutional Neural Network for discovery
written by Shiyong Ma, Zhen Zhang
(Submitted on 14 Apr 2018 (v1), last revised 23 May 2019 (this version, v2))
Comments: Accepted by arXiv.
Subjects: Machine Learning (stat.ML); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

背景

オミクスデータにおける高次元性は、画像データの導入により、解消できるのでしょうか？

この論文では、高次元オミクスデータの解析にあたり、データベース上に蓄積された分子情報に基づいたマッピングをおこない、二次元画像データに変換することで、深層学習における画像解析技術を活用した、高次元大規模データ解析の実現を目指しています。現在、ゲノムをはじめ、生体物質を対象とした解析をおこなう、オミクス解析—遺伝子を対象としたゲノミクス、タンパク質を対象としたプロテオミクスなど—に注目が集まっています。こうしたオミクスデータの解析では、各オミクスにおける、層内および層間の相互作用を考慮する必要があるため、自動的にデータ解析・解釈できる、機械学習を用いたアプローチに注目が集まっています。

本研究は、オミクスデータにおける高次元性を解消するため、深層学習アルゴリズム—特に画像解析における技術—を用いた手法について、調査をおこない、画像変換をおこなう方法を提案しています。具体的には、がんデータセットおよびKEGGデータベースと用いて、遺伝子に関する発現量から、ツリーマップを構成し、画像データを生成する手法を提案しています。こうした手法により、オミクスデータにおける高次元性および解析の困難さを解消することが期待されます。

オミクスとは

まず初めに、普段聴き慣れない方も多いと思いますので、オミクスについて簡単に説明します。

オミクス（Omics）は、人の体に関する、生態上を網羅的に週した情報の集合のことを指し、これらの生体情報を解析することで、疾患の推定や創薬分野における発展を促進できると言われています。オミクスには、ゲノミクス（遺伝情報）、トランスクリプトミクス（RNA）、プロテオミクス (タンパク質)、メタボロミクス（代謝物質）、インタラクトミクス（タンパク質の相互作用）といった、複数の層が存在し、層内、および層間で互いに関連しあっています。現在の研究では、セントラルドグマに関わる最初の３つの層が主流とされ、研究が盛んに行われています。

オミクスデータの特徴として、複数のレベルをネットワークの視点からに解析することで、各レベルでは得られない新たな知見を獲得できることがあります。医学分野においては、複雑な要因が関連し、従来の解析手法では、処理が困難であった疾患—心血管疾患など—や、発生機序が不明瞭であった疾患—がんなど—に対して、有効なアプローチになりうるため、注目を集めています。特に、近年、患者数が急増する、生活習慣病の多くは、単一の因子ではなく、複数の要因が重なって発生する—遺伝のみでなく、遺伝情報と環境因子など—多因子疾患と呼ばれ、単一的な要因を対象とした解析では、正確な解析や解釈が困難であると言われています。こうした背景から、ゲノムや環境因子に近いメタボロームといった、複数のオミクスから疾患を捉えることで、単体の層では不明瞭であった、相互的作用を明確化し、疾患に対する機序に対する洞察を深め、予防・治療につなげるといったことが期待されており、耳目を集めています。また、前述のように、オミクス解析では、層内・層間にまたがった要因を対象とすることから、人の手で解析することが困難であるとされ、こうした複雑さを解消するため、機械学習・深層学習をはじめとした、複数の要因を、自動的に解析できるアプローチが、今後の主流になってくると言われています。

機械学習を用いたオミクス解析に関する、先行研究の現状・課題

このように、オミクス解析のおける機械学習・深層学習の研究がおこなわれる中で、特に、データセットにおける、高次元性の解決が課題として、指摘されています。これまでの手法では、単一オミクスのみに注目しいたため、多因子疾患のような、次元数が急激に増大する複数のオミクスを考慮した解析では、データセットにおける高次元性をどのように解消していくか、が効率的な解析を実現する鍵となっています。こうした高次元性に対するアプローチの一つとして、さまざまな手法が提案されています。その中の一つとして、画像解析分野の深層学習技術があります—畳み込み処理により、高次元かつ大規模データに対して、効率的な解析をおこなうことができる技術です。一方、この手法では、画像フォーマットに沿った入力データを必要とするため、従来のオミクス解析における、数値データを中心としたデータセットでは、解析が困難です。本研究は、こうした画像解析技術を、オミクスデータを画像フォーマットに変換させることで適用し、高次元性を解消することに焦点を当てています。

本研究の目的

本研究の目的は、高次元オミクスの発現データを、機能的な特徴に基づき、2次元（2D）画像として変換することで、深層学習における画像解析技術の導入を可能にし、効率的な解析を実現することです。

より具体的には、オミクスの発現データを、生物学的特徴、特にKEGGオブジェクト（http://www.kegg.jp/）の機能的階層を対象としている、KEGG BRITEデータベースから抽出した、遺伝子の階層的マッピングと機能的アノテーションを行い、ツリー構造をはじめとする、グラフ構造を用いて、二次元画像データを構築します。

手法

データセット

今回の手法を検証するにあたり、Cancer Genome Atlas（TCGA）の遺伝子発現データセットを用いて、ツリーマップ画像を作成しています。このデータセットにおける前処理として、発現量が極端に低い遺伝子（閾値：-5）除外するフィルタリングをおこなっています。残りの遺伝子については、遺伝子名とKEGG-IDを照合し、データマトリックス中の複数の遺伝子に対応するKEGG-IDについては、平均発現値が最も高い遺伝子を選択しています（下図参照）。

オミクスの発現データのツリーマップ画像への変換

オミクスの発現データをツリーマップ画像に変換するために、KEGG BRITEを用いて、がんに関する遺伝子およびタンパク質の情報のみを抽出しています。その後、KEGG IDに基づいて、遺伝子を木構造の対応する子ノードに割り当て、最終的に、5層の階層ツリーが構築されたことが確認されました。1つの遺伝子が複数の KEGG 機能アノテーションを持つ可能性があるため、これらの遺伝子は、ツリーの複数の位置を示していることになります。次に、サンプルの遺伝子を2次元画像に空間的に配置するために、長方形のツリーマップを用いました。このツリーマップでは、各矩形ユニットが1つの遺伝子を表し、これらをツリーマップに配置することで、ツリー構造の画像を生成します。本研究では、生成にあたり、Pivot法（Bederson, Shneiderman, and Wattenberg 2002）を用いています。こうしてマッピングをおこない、遺伝子の発現量の正規化値に基づいて、ツリーマップをカラーリングし、各発現量の違いをより明確にしています。具体的には、各サンプルについて、最も高い発現量を赤に、最も低い値を青の色にマッピングし、線形補完をおこないました。作成されたオリジナルのツリーマップ画像は1024*1024ピクセルで、DCNNに入力する前に512*512ピクセルにサブサンプリングされています。

学習・評価

OmicsMapNetアプローチの有効性を実証するために、比較分析を行いました。2Dツリーマップ変換をしていない遺伝子発現データを用いて、Logistic regressionや勾配ブースティング決定木（XgBoost）を対象として、腫瘍グレード予測の精度を比較しています。

また、学習されたCNNの特徴量マップの妥当性を確認するため、マップにおける、重み上位10％の大きなものを選択し生成された画像と照らし合わせて、パスウェイの解析をおこなっています。

結果

TCGA LGG&GBM遺伝子発現データの変換

この評価は、KEGGデータベースおよび TCGAデータセットを用いて、生成された画像の様子を明確化する目的でおこなっています。

提案手法である、OmicsMapNetは、KEGG BRITE階層ファイルから機能アノテーションの階層構造を抽出し、対応する子ノードに遺伝子を割り当て、ツリーマップ画像を構築しました。最初に、遺伝子発現マトリクスから20330個の遺伝子を取得し、極端に発現量が少ない遺伝子を排除し、17715個の遺伝子を抽出しています。これらの遺伝子は、KEGG IDにマッピングされ、7095個の遺伝子はOmicsMapNetで、また、10772個の遺伝子の四角形を含むTremap（先行研究）の構造（遺伝子の空間的配置）を用いて生成しました（下図参照）。ツリーマップは、各四角形が1つの遺伝子を表し、各色は、正規化された遺伝子の強度を表しています。このデータセットでは、667個のサンプルに対してRNA-Seq解析が行われ、うち607個はWHOグレード—がんの重症度を示す指標—のラベルを付与しています。

DCNNによる腫瘍サンプルのグレードの学習と予測

この解析は、生成された画像に対して、Deep CNN（DCNN）を用いて、学習をおこなった際の精度を明確化する目的でおこなっています。

今回用いたDCNN（下図参照）は、3つのConvolutionと2つのDenseを持ち、生成されたツリーマップ画像を入力とし、対応するサンプルのWHOグレードを出力として、腫瘍サンプルのグレードをラベルとして学習しています。今回のデータセットにおける、607個のTCGA LGG&GBMサンプルのWHOグレードII、III、IVの被験者の分布は、それぞれ215、239、153で、10-foldクロスバリデーションを用いて評価をおこないました。結果として、平均精度は75.09％（95％CI：70.38-79.79％）、中央値は74.35％でした。また、ROC曲線（下図参照）から、今回の学習モデルにおける、G2とG3の識別精度が、G2の平均AUC（area-under-curve）は0.86、G3の平均AUCは0.83となりました。一方、G4の平均AUCは0.99であり、G4はより高い精度でG2やG3と区別できていることが示されました。

OmicsMapNet、Logistic Regression、Gradient Boosting Decision Treesを用いたグレード2、グレード3のサンプルの分類

この評価の目的は、グレード2（G2）とグレード3（G3）の分類性能に関して、OmicsMapNetと関連手法を対象に比較・検証することです。

関連手法として、ロジスティック回帰とXGBoostによる勾配ブースティング決定木を使用し、提案手法であるOmicsMapNetは、DCNNのアーキテクチャと学習手順は、10-fold cross validationを用いておこないました（下図参照）。その結果、AUCの平均値は0.86（提案手法）、0.79（Logistic Regression）、0.72（XGBoost）となりました。

入力次元がサンプル数に比べて大きい（Grade2：215、Grade3：239）ことを考慮し、オーバーフィッティングを抑えるために、サンプリングした遺伝子のサブセットに対して、Logistic Regressionとgradient boosting decision trees（GBDT）を用いて、分類をおこないました。各遺伝子に対して、50回サンプリングし、10-fold cross validationで性能を測定し、AUCの平均値と標準偏差をプロットしました。これらの結果から、OmicsMapNetは、他のベンチマークアルゴリズムと比較して、グレード2およびグレード3のサンプルをより正確に分類できることがわかりました（下図参照）。

考察

本研究は、オミクスデータにおける高次元性を解消するため、深層学習アルゴリズム、特に画像解析における技術を用いた手法の導入について、調査および検討をおこないました。提案手法としては、TCGAのがんデータセットおよびKEGGデータベースにおける、遺伝子に関する発現量の情報を用いて、ツリーマップを構成し、画像データを生成する手法を提案しています。評価として、生成された画像を入力とした、DCNNによる学習モデルを構築し、Logistic regressionや、XGBoostとともに、ガンの分類精度について、比較をおこなっています。結果として、提案手法の分類性能が高いことが確認されました—特に、グレードの高いがんにおける分類性能が高いことが示されています。この結果から、遺伝子の発現量、およびデータベースの生態情報を組み合わせて生成された画像が、ガン分類に置いて高い性能をもつことが示され、その他の疾患や遺伝以外の情報を組み合わせた画像生成にも応用の幅があることが考えられます。

　一方で、今回用いたデータセットは、がんに関するデータセットであるため、その他の疾患に対して有効であるかは不明瞭である課題が挙げられます。生成された画像データは、がんを対象とした解析情報に基づいているため、その他の疾患では、ツリー構造も異なることが推察され、対象疾患に対する普遍性が欠けていることが考えられます。こうした課題に対しては、今回用いたデータセット以外での評価—特に、希少疾患といった、遺伝子との関連の強い疾患—をおこなうことで、提案手法の妥当性・頑健性が示されることになると推察されます。