半监督协作学习，整合多种类型的生物数据

半监督 19/02/2024

三个要点
✔️ 有关塑造生物体的各种分子的数据统称为多组学数据，但有监督的数据却很少
✔️ 提出了半监督协作学习，它甚至可以通过成功整合无监督的多组学数据来提高性能。
✔️ 在分析有关老龄化的真实数据时，最大限度地利用了各种数据，并取得了出色的预测性能。

Semi-supervised Cooperative Learning for Multiomics Data Fusion
written by Daisy Yi Ding, Xiaotao Shen, Michael Snyder, Robert Tibshirani
(Submitted on 2 Aug 2023)
Comments: The 2023 ICML Workshop on Machine Learning for Multimodal Healthcare Data. arXiv admin note: text overlap with arXiv:2112.12337
Subjects: Quantitative Methods (q-bio.QM); Genomics (q-bio.GN); Applications (stat.AP)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

您听说过多组学数据吗？

在生物学中，对构成生物体的各种分子的研究已发展成为 00omics.基因组学、表观基因组学、转录组学、蛋白质组学......、放射组学。这些研究有时被称为多组学，希望通过横向研究来促进我们对生物体的了解。

这些只是观察同一生物体的不同方法，但最终我们真正想知道的仍然是生物体。因此，我们需要数据分析技术来整合对同一事物的不同看法，从而提高分析性能。

本文介绍的是一种名为 "协作学习 "的技术，它将这些不同的观点结合在一起，以实现更恰当的数据分析。

在分析数据之前，首先要收集如此多样的数据是很困难的。即使收集到了一些数据，也并非所有数据都具有学习所需的标签（作为预测值的客观变量）。

因此，我们提出了一种协作学习方法，它也可以利用半监督数据，即标记数据和非标记数据的混合数据。

虽然这个应用实例是多组学数据，但就利用不同类型数据而言，它与大规模语言建模（LLM）领域的热门话题多模态学习（学习语言、图像和音频等不同类型的数据）相同，因此具有广泛的潜在应用前景。

本节将介绍多组学数据、分析这些数据的拟议方法及其验证结果。

多组学数据

多组学数据的概念图如图 1 所示。

如图所示，与构成生物体的分子有关的学科多种多样。仅在图中就列出了五种：基因组学、表观基因组学、转录组学、蛋白质组学和放射组学。每个学科都有数据，这意味着至少有五种不同类型的数据。

请逐一简要说明。

基因组学是对包含遗传信息的 DNA 的研究，你可能听说过聪明是遗传的、人类基因组已被解码、猿猴和人类的基因组只有细微差别等话题。这是一门研究生物蓝图的学科。

表观基因组学是对化学修饰（化学变化）的研究，这些化学修饰控制着基因如何从生物体的蓝图中读取。例如，DNA 有一个螺旋结构，即 DNA 缠绕在一种叫做组蛋白的蛋白质上。组蛋白的化学修饰之一称为 Me3。基因部分是否存在化学修饰会影响该基因能否被读取。

转录组学是对 RNA 的研究，RNA 接收并传递 DNA 的蛋白质生成指令。

蛋白质组学是对生物体内蛋白质的研究。

放射组学是对核磁共振成像和 CT 图像等医学成像的研究。

通过整合这些学科，我们可以全面追踪生物体蓝图的解读、蛋白质的制造以及人类生物体的塑造过程。要全面了解生物体，就需要有整合和分析这些学科数据的方法。

传统方法：早期融合、晚期融合

该项目的目的是整合和分析生物学（多组学数据）的各种数据（多组学数据融合）。更具体地说，就是整合不同类型的数据，以预测所关注的结果。

此类数据融合技术主要有两种方法。早期融合和后期融合。

早期融合

早期融合是在一个预测模型上对几组不同的串联数据进行训练的一种方法。概念图如图 2 所示。

如图所示，假设有基因解释变量 X（X 视图）和蛋白质解释变量 Z（Z 视图）的数据。在这种情况下，可以利用早期融合来学习 y=f({X,Z})，这样就可以根据这些解释变量的数据预测目标函数 y（组合视图）。

后期融合

后期融合是一种针对每项数据训练一个预测模型，然后将几个不同的数据融合在一起的方法。概念图如图 3 所示。

如图所示，首先学习一个预测模型 y=f_X(X)，从基因（视图 X）的解释变量 X 预测目标变量 y；学习一个预测模型 y=f_Z(Z)，从蛋白质（视图 Z）的解释变量 Z 预测目标变量 y。然后利用后期融合来学习预测模型 y=f(f_X(X),f_Z(Z))，将 f_X(X) 和 f_Z(Z) 结合起来预测 y。

拟议方法：带有匹配惩罚的半监督协作学习

一般来说，早期融合的优点是将解释变量串联起来，从而可以捕捉和预测解释变量之间的相互作用。缺点是先将解释变量连接起来，因此预测模型中的解释变量变得维度很高，而且如果将与 y 无关的解释变量连接起来，就会影响预测。

相反，后期融合不会因引入不相关的解释变量而恶化预测性能，因为它们是单独预测的，而且解释变量的串联不会使解释变量的维度过高。不过，不同数据之间的交互作用有遗漏的风险。

因此，早期融合和晚期融合各有利弊。

因此，最好有一种方法能根据数据自适应地调整早期和晚期融合之间的盐度。这可以通过技术要点 1 中所述的合作学习来实现。

此外，将这种协作学习扩展到允许半监督学习是技术要点 2，这也是本文的一个新颖之处。

技术要点 1.合作学习（匹配惩罚）

协作学习的概念图如图 4 所示。

图中的最小等式表示预测模型的损失函数。优化预测模型参数以最小化该损失函数并学习预测模型（本文特别考虑线性回归模型）的方法就是合作学习。

等式中的第一项是用解释变量 X 的预测模型 f_X(X)和解释变量 Z 的预测模型 f_Z(Z)之和预测目标变量 y 时的预测误差。由于它是 y、f_X 和 f_Z 之和的平方，因此展开后会得到两者的乘积。其中，我们得到了 f_X*f_Z。这意味着必须学习 f_X*f_Z 以减少预测误差，因此要考虑 X 和 Z 之间的相互作用。

第二项是 f_X(X)和 f_Z(Z)之差的平方，因此惩罚的目的是使 f_X(X)和 f_Z(Z)的预测相匹配（匹配惩罚）。鉴于多组学数据的基本前提，即同一事物只有不同的观点，我们应该希望不同的观点（解释变量）能做出相同的预测，因此这可以解释为一个直接体现这一点的术语：当 ρ = 1 时，当最小化预测误差时，y 独立于 f_X 和 f_Z 且当 ρ=1 时，"早期融合 "中刚刚描述的 f_X*f_Z 的交互作用会被匹配惩罚抵消。因此，最终结果与分别减小 f_X 和 f_Z 预测误差的学习是一致的。

因此，将 ρ 从 0 改为 1，模型就会不断从早期融合变为晚期融合。通过交叉验证来确定这个 ρ，使其能够很好地贴合数据，就能实现适当的早期和晚期融合。

理论分析表明，当不同数据之间存在潜在因素模型（潜在共同结构）时，匹配惩罚可以减少预测误差。

技术要点 2：半监督学习

半监督协作学习的概念图如图 5 所示。

在前面的解释中，X 的所有行都给出了 y。但是，如图 5 所示，部分数据没有 y（图中无标签）。

为了在学习中利用这些未标记数据，半监督协作学习会在上文图 4 等式的损失函数中添加图 5 所示的第三项（未标记数据）。这是与解释变量数据对无标签数据的预测相匹配的惩罚。

当然，即使是不同的观点（解释变量），如果满足了它们应该做出相同预测的基本前提，也应该更接近正确的预测，因此，加入这种惩罚应该具有防止在少量带标签数据上过度学习的效果。

基于真实数据的评估结果

本文利用有关老龄化的转录组学和蛋白质组学数据对所提出的方法进行了评估。预测模型采用了著名的基于线性回归模型的变量选择方法 Lasso。

比较的方法有：仅使用蛋白质组学数据训练的分离蛋白质组学方法、仅使用转录组学数据训练的分离转录组学方法、使用早期融合方法训练的早期融合方法、使用监督合作学习训练的合作学习方法，以及使用半监督合作学习训练的半监督合作学习方法、使用后期融合方法训练的后期融合、使用监督合作学习训练的合作学习，以及使用拟议方法的半监督合作学习训练的半监督合作学习。

评估指标是 MAE（平均绝对误差），MAE 越小，预测精度越高。

评估结果见表 1。(顺便提一下，表 1 中的 "相对于晚期融合 "似乎是 "早期融合 "的错误）。