ゲノムデータ にCNNを適用!?非画像データを画像に変換する手法の提案!

ゲノムデータ にCNNを適用!?非画像データを画像に変換する手法の提案!

3つの要点
✔️ 従来のテキストデータでは、オミクスにおける小さな変動を取得することが困難
✔️ 非画像サンプルを適切に整理された画像形式に変換する方式を提案

✔️ 様々な非画像データセット(RNA-seq、母音、テキスト等)を CNN に適用し、高精度の分類できることを確認

DeepInsight: A methodology to transform a non-image data to an image for convolution neural network architecture
written by Alok Sharma, Edwin Vans, Daichi Shigemizu, Keith A. Boroevich & Tatsuhiko Tsunoda
(Submitted on 06 Aug 2019)

Comments: Published by Scientific Reports volume 9, Article number: 11399.
Subjects: Convolutional neural network (CNN)

背景

ここでは、本研究で取り扱われている背景を概説した後、ポイントについて述べていきます。

1990年代から 始まったヒトゲノム計画を始め、ゲノム解析技術は飛躍的に向上し、大量のデータとして収集することが可能となりました。一方で、こうしたデータはデータ空間全体に無差別に広がっていると一般的に言われており、その複雑さから人の手によって表現型を解析(クラスラベルとの結びつけ)することは困難であると考えられています。そのため、こうしたデータを適切な配置に並べ直し、特徴量抽出を行い、分類器を開発するというステップによって、高精度な予測モデルが構築されることになります。

従来の機械学習手法(ランダムフォレスト、決定木等)では、こうした配置の関係なく、データに合わせたクラスタを定義し、分類を行うため、特徴量の順序変更が直接的に精度に影響を及ぼすことはないとされています。

一方、深層学習では、パラメータの自動的設定といった利点を持ちます。近年、医療業界でも導入が進んでいる CNN は膨大なデータ量から分類を行うため、人の手では難しい特徴量抽出を高精度で行うことができる点で注目を集めています。CNN では隣接するピクセルが類似しているという仮定のもとで設計されたアーキテクチャであるため、データの順序が精度の高さに影響を及ぼす可能性があります。

CNN は通常、画像データを対象としており、画像データでは隣接する入力は類似する傾向が強いことが知られています。そのため、通常、こうしたデータ順序を考える必要はありません。一方、NLP を始めとする分野においても、CNN の適用が先行研究で指摘されており、膨大なデータ量を学習することで、人の手では困難な処理を行う研究もあります。こうした非画像データに対する、順序を考慮した提案を行っているのが本研究です。

研究のポイント

本研究では、非画像データに対する CNN を適用する際の変換方法 Deepinsight を提案しています。一般に画像データを対象とする CNN ですが、非画像データにおいても適切に画像データに変換できれば、高い精度で分類を行うことができる可能性があります。また、こうした変換により、非画像データにおいても、今まで蓄積されてきた CNN に関する知見を活用することができるという点で期待されています。

 

この記事をシェアする