複数種類の生物学的データを統合する半教師有り協調学習

semi-supervised 2024年02月19日

3つの要点
✔️ 生物を形作る多様な分子のデータを総称しマルチオミクスデータと呼ぶが、教師データが少ない
✔️ 教師のないマルチオミクスデータもうまく統合し性能向上可能な半教師有り協調学習を提案
✔️ 多様なデータを最大限活用し、加齢に関する実データの分析でも優れた予測性能を達成

Semi-supervised Cooperative Learning for Multiomics Data Fusion
written by Daisy Yi Ding, Xiaotao Shen, Michael Snyder, Robert Tibshirani
(Submitted on 2 Aug 2023)
Comments: The 2023 ICML Workshop on Machine Learning for Multimodal Healthcare Data. arXiv admin note: text overlap with arXiv:2112.12337
Subjects: Quantitative Methods (q-bio.QM); Genomics (q-bio.GN); Applications (stat.AP)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

マルチオミクスデータという言葉を聞いたことがあるでしょうか？

生物学の世界では、生物を構成する多様な分子それぞれの研究が〇〇ミクスとして発展しています。ゲノミクス、エピゲノミクス、トランスクリプトミクス、プロテオミクス、…、ラジオミクス。これらの研究は、横断研究による生物の理解の発展を期待して、マルチオミクスと呼ばれることがあります。

これらは同じ生物というものを違った見方で見ているだけであって、究極的に本当に知りたいことは生物であるということに変わりはありません。このように、同じものの違った見方を統合して解析性能を向上させるデータ分析技術のニーズがあります。

今回解説する論文はそんな違った見方を協調させてより適切なデータ分析を実現する協調学習という技術に関するものです。

そもそもデータを分析をする前に、そのような多様なデータを集めること自体難しいでしょう。何等かのデータが集まったとしても、学習に必要なラベル（予測対象の値となる目的変数）がすべてのデータに付いているとは限りません。

そこで、ラベル有りのデータとラベル無しのデータが混在した半教師有りデータも生かせる協調学習手法が提案されています。

今回の応用例はマルチオミクスデータですが、異なる種類のデータを活用するという観点でいえば、大規模言語モデル（LLM）で話題になっているマルチモーダル学習（言語、画像、音声などの異なるデータの学習）と同じですので、幅広い応用が期待できるといえるでしょう。

では、マルチオミクスデータとその解析のための提案手法、その検証結果を解説してゆきます。

マルチオミクスデータ

マルチオミクスデータの概念図を図1に示します。

図のように生物を構成する分子に関する学問は多様に存在します。図に記載のあるものだけでも、ゲノミクス（Genomics）、エピゲノミクス（Epigenomics）、トランスクリプトミクス（Transcriptomics）、プロテオミクス（Proteomics）、ラジオミクス（Radiomics）と5つもあります。それぞれの学問ごとにデータが存在するので、少なくとも5種類のデータが存在することになります。

簡単にそれぞれを説明します。

ゲノミクスは、遺伝情報が格納されたDNAを研究する学問で、頭の良さは遺伝だとか、人間のゲノムが解読されたとか、猿と人のゲノムはほんの少ししか違わないなど話題として、聞いたことがあると思います。いわゆる、生物の設計図の研究です。

エピゲノミクスは、生物の設計図からどのように遺伝子が読まれるかを制御する化学修飾（化学的な変化）を研究する学問です。たとえば、DNAはらせん構造を持っていますが、DNAがヒストンというたんぱく質に巻き付くことで、らせん構造になっています。このヒストンの化学修飾の一つがMe3と呼ばれるものになります。ある遺伝子部分における化学修飾の有無が、その遺伝子が読み取られるかどうかに影響しています。

トランスクリプトミクスは、DNAからタンパク質の作成指示書を受け取り、運搬するRNAを研究する学問です。

プロテオミクスは、生物のタンパク質の研究を行う学問です。

ラジオミクスは、MRIやCT画像のような医用画像の研究を行う学問です。

これらの学問を統合すると、生物の設計図が読まれ、タンパク質が作られ、人間の生体として形作られる過程を総合的に追跡できます。生物の総合的な理解のため、これらの学問のデータを統合して解析する手法が求められています。

従来手法：アーリーフュージョン、レイトフュージョン

今回の目的は、生物学の多様なデータ（マルチオミクスデータ）を統合して解析すること（マルチオミクスデータフュージョン）です。より具体的には、異なる種類のデータを統合して、関心のある結果を予測することです。

このようなデータフュージョン技術のアプローチは大きく分けて二つあります。アーリーフュージョンとレイトフュージョンです。

アーリーフュージョン

アーリーフュージョンは複数の異なるデータを連結したデータを予測モデルで学習するアプローチです。図2にその概念図を示します。

図のように、遺伝子に関するX（View X）という説明変数、タンパク質に関するZ（View Z）という説明変数のデータがあるとします。このとき、これらを連結した説明変数のデータ（Combined View）から目的関数yを予測するようなy=f({X,Z})を学習するのがアーリーフュージョンになります。

レイトフュージョン

レイトフュージョンは複数の異なるデータについて、各データごとに予測モデルを学習し、その後、複数の予測モデルを統合して予測するアプローチです。図3にその概念図を示します。

図のように、まず、遺伝子に関するXという説明変数（View X）から目的変数yを予測する予測モデルy=f_X(X)を学習し、タンパク質に関するＺという説明変数（View Z）から目的変数yを予測する予測モデルy=f_Z(Z)を学習します。その後、f_X(X)とf_Z(Z)を結合してyを予測する予測モデルy=f(f_X(X),f_Z(Z))を学習するのが、レイトフュージョンになります。

提案手法：一致ペナルティによる半教師あり協調学習

一般的に、アーリーフュージョンは、説明変数を連結するので説明変数間の相互作用を捉えて予測できるという利点があります。先に説明変数を連結するので、予測モデルの説明変数が高次元になること、yに関係のない説明変数を連結してしまうとそれが予測の阻害要因になることが欠点になります。

逆に、レイトフュージョンは、別々に予測を行うので、関係のない説明変数を混入させることで予測性能が悪化することはありませんし、説明変数の連結で説明変数が高次元になるようなことはありません。しかし、異なるデータ間の相互作用を見逃してしまう恐れがあります。

このように、アーリーフュージョンとレイトフュージョンには、一長一短があります。

そこで、データに適応的に、アーリーフュージョンとレイトフュージョンの塩梅を調整可能な手法が望ましいです。それを実現するのが技術ポイント1の協調学習です。

さらに、この協調学習を半教師有り学習できるように拡張した点が技術ポイント2であり、本論文の新しさになります。

技術ポイント1．協調学習（一致ペナルティ）

協調学習の概念図を図4に示します。

図のminの式は予測モデルの損失関数を示しています。この損失関数を最小化するように予測モデルのパラメータを最適化し、予測モデル（本論文では線形回帰モデルを具体的に考えています）を学習する手法が協調学習になります。

この式の第一項は説明変数Xによる予測モデルf_X(X)と説明変数Zによる予測モデルf_Z(Z)の和で目的変数yを予測した時の予測誤差になります。この第一項のみの場合、つまり、第二項でρ=0の場合、XとZを連結して予測した時と一致するので、アーリーフュージョンになります。y、f_X、f_Zの和の二乗ですので、展開するとそれぞれの二つの積が出てきます。その中に、f_X*f_Zが出てきます。つまり、f_X*f_Zが予測誤差を減らすように学習されないといけないので、XとZの相互作用を加味した状態になります。

第二項は、f_X(X)とf_Z(Z)の差分の二乗なので、f_X(X)とf_Z(Z)の予測を一致させるようなペナルティ（一致ペナルティ）になっています。マルチオミクスデータの大前提として、同じものの異なる見方でしかないという想定からすれば、異なる見方（説明変数）であっても、同じ予測をしてほしいはずなので、これを直接体現する項と解釈できます。ρ=1のとき、f_X、f_Zで独立にyとの予測誤差を最小化するときと同じ最小化問題になり、単純なレイトフュージョンになります。ρ=1のときは、ちょうど一致ペナルティによって、先ほどアーリーフュージョンで説明した相互作用f_X*f_Zが打ち消されます。したがって、結局f_X、f_Zを独立に予測誤差を減らそうと学習した結果と一致します。

このように、ρを0から1に変化させることで、アーリーフュージョンからレイトフュージョンに連続的に変化するモデルとなります。このρを、交差検証によりデータにうまく適合するように決めることで、アーリーフュージョンとレイトフュージョンの適切な塩梅を実現できます。

理論解析上、異なるデータ間に潜在要因モデル（潜在する共通構造）が存在する場合、一致ペナルティを入れた方が予測誤差を減らせることが示されています。

技術ポイント2．半教師有り学習

半教師有り協調学習の概念図を図5に示します。

今までの説明では、Xのすべての行にyが与えられていました。しかし、図５のように、一部のデータのyがありません（図のNo Label）。

このラベル無しデータを学習に生かすため、半教師有り協調学習では、先ほどの図4の式にあった損失関数に図5に示す第三項（Unlabeled Data）を加えます。ラベル無しデータの説明変数データによる予測に関しての一致ペナルティになります。

確かに、異なる見方（説明変数）であっても、同じ予測をしてほしいという大前提を満たしていた方が正しい予測に近いはずであるので、このペナルティを入れることで、ラベルがある少数のデータへの過学習を防ぐ効果が期待できるはずです。

実データによる評価結果

本論文では、加齢に関するトランスクリプトミクスデータとプロテオミクスデータを使って、提案手法を評価しています。予測モデルには、線形回帰モデルベースの変数選択手法として有名なLassoを用いています。

比較手法は、プロテオミクスデータだけを使って学習したSeparate Proteomics、トランスクリプトミクスデータだけを使って学習したSeparate Transcriptomics、アーリーフュージョンアプローチで学習したEarly fusion、レイトフュージョンアプローチで学習したLate fusion、教師有りの協調学習で学習したCooperative learning、提案手法の半教師有りの協調学習で学習したSemi-supervised cooperative learningです。

評価指標はMAE（平均絶対値誤差）で、小さいほど予測精度がよいです。

評価の結果を表1に示します。（ちなみに、表1のRelative to Late FusionはEarly Fusionの誤りと思われます。）

表に示すように、Early fusion、Late fusionは、Separate Proteomics、Separate Transcriptomicsに負けてしまっています。つまり、異なる種類のデータを統合して学習しようとしたことで、逆に性能劣化を引き起こしています。

対して、Cooperative learningはSeparate Proteomics、Separate Transcriptomicsに勝っています。協調学習は、異なる種類のデータを使って予測性能を向上できています。

さらに、ラベル無し説明変数データを使って予測した結果に一致ペナルティを適用した提案手法であるSemi-supervised cooperative learningは、比較手法の中で一番良い結果を示しています。加えて、従来手法では特定できていなかった、加齢のプロセスに関わる要因（過去の研究から正しい要因と考えられているもの）を特定できたと報告されています。