从omics数据中,生成图像! 建议的癌症图像生成方法
三个要点
✔️ 随着多种因素相互交织的多因素疾病的增加,遗传学和蛋白质的omics分析备受关注,但由于数据的高维度,使用统计分析等常规方法很难进行准确分析。
✔️ 为了解决omics数据的高维度问题,我们重点引入了深度学习--尤其是图像分析领域的算法,并提出了OmicsMapNet方法,利用数据库中的分子特征和数据将数据分析为二维图像。我们提出了一种方法
✔️ 在癌症数据集(TCGA)的分类问题上取得了比传统方法更高的准确性,特别是在严重程度较高的癌症的分类性能上。
OmicsMapNet: Transforming omics data to take advantage of Deep Convolutional Neural Network for discovery
written by Shiyong Ma, Zhen Zhang
(Submitted on 14 Apr 2018 (v1), last revised 23 May 2019 (this version, v2))
Comments: Accepted by arXiv.
Subjects: Machine Learning (stat.ML); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
code:
背景
能否通过引入图像数据来消除omics数据的高维度?
本文通过对数据库中积累的分子信息进行映射,并将其转化为二维图像数据来分析高维omics数据,旨在利用深度学习中的图像分析技术实现高维大规模数据分析。目前,人们非常关注全息分析,即对生物材料的分析,如基因组、基因组学的基因和蛋白质组学的蛋白质。在分析这类omics数据时,有必要考虑到每个omics的层内和层间的相互作用,因此使用机器学习来自动分析和解释数据的方法正在引起人们的注意。
为了克服omics数据的高维度,我们研究了使用深度学习算法的方法,特别是在图像分析方面,并提出了一种图像转换的方法。具体来说,我们提出了一种方法,通过使用癌症数据集和KEGG数据库从基因表达水平构建树状图来生成图像数据。这种方法有望解决omics数据的高维度和分析难度问题。
什么是Omics?
首先,我想简单地解释一下Omics,因为你们中的许多人可能不习惯听到它。
据悉,对这些生物信息的分析可以促进对疾病的估计和药物发现的发展。omics有多个层次,如基因组学(遗传信息)、转录组学(RNA)、蛋白质组学(蛋白质)、代谢组学(代谢物)和交互组学(蛋白质-蛋白质相互作用),它们在层内和层间是相互关联的。在目前的研究中,与中心教条有关的前三层被认为是主流,正在积极研究。
全息图谱数据的特点之一是,通过从网络角度分析多个层面,可以获得在每个层面上无法获得的新知识。在医学领域,对于那些因复杂因素而难以用传统分析方法治疗的疾病(如心血管疾病)和发展机制不明确的疾病(如癌症),全量元素数据可以成为一种有效的方法。特别是近年来,病人的数量一直在迅速增加。特别是近年来患者人数迅速增加的许多与生活方式有关的疾病被称为多因素疾病,因为它们不是由单一因素引起的,而是由多种因素--不仅是遗传,还有遗传信息和环境因素--共同造成的,很难通过针对单一因素进行准确分析和解释。据说很难通过针对单一因素进行准确分析和解释。在此背景下,从多个全息影像学(如接近环境因素的基因组学和代谢组学)来理解疾病,有望阐明被单一层次掩盖的相互作用,加深对疾病机制的认识,并导致预防和治疗,正在引起人们的关注。此外,如上所述,据说omics分析是很难人工分析的,因为它针对的是层内和层间的因素,为了解决这种复杂性,可以自动分析多种因素的方法,如机器学习和深度学习,据说会成为未来的主流。为了解决这些复杂问题,能够自动分析多种因素的方法,包括机器学习和深度学习,有望在未来成为主流。
以往利用机器学习进行全息分析的研究现状和问题。
当机器学习和深度学习在全息分析中的研究正在进行时,数据集的高维度的解决方案被指出是一个问题。由于传统的方法只关注单一的omics,高效分析的关键是当考虑到维度迅速增加的多个omics时,如何解决数据集的高维度问题,如多因素疾病。各种方法已经被提出来作为处理这种高维度的方法之一。其中之一是图像分析领域的深度学习技术--这种技术可以通过卷积处理对高维度的大数据进行高效分析。另一方面,该技术要求输入数据遵循图像格式,这对于主要由数字数据组成的常规全息分析数据集来说是难以分析的。这项研究的重点是应用这样一种图像分析技术,将全息影像数据转换为图像格式,以消除高维度。
本研究的目的
这项研究的目的是将高维的全基因表达数据转化为基于功能特征的二维(2D)图像,这将使图像分析技术在深度学习中的实施得到有效的分析。
更具体地说,omics表达数据被用来构建二维图像数据,使用从KEGG BRITE数据库中提取的基因的分层映射和功能注释,其目标是生物特征,特别是KEGG对象的功能层次(http://www.kegg.jp/),以及树状结构我们使用图结构(包括树结构)构建二维图像数据。
技术
数据集
为了验证我们的方法,我们使用了癌症基因组图谱(TCGA)的基因表达数据集来创建一个树状图像。作为这个数据集的预处理步骤,我们过滤掉了表达水平极低的基因(阈值:-5)。对于其余的基因,我们将基因名称与KEGG-IDs相匹配,并选择数据矩阵中多个基因所对应的KEGG-IDs的平均表达值最高的基因(见下图)。
将omics的表达数据转换为treemap图像。
为了将omics表达数据转换为树状图图像,使用KEGG BRITE只提取与癌症有关的基因和蛋白质信息。然后,根据KEGG ID,将基因分配到树状结构的相应子节点上,最后确认构建了一棵五层的层次树。由于一个基因可能有多个KEGG功能注释,这些基因在树中代表多个位置由于一个基因可能有多个KEGG功能注释,这些基因在树上代表多个位置。 接下来,我们使用一个矩形树状图来对二维图像中的样本基因进行空间排列。在这个树状图中,每个矩形单元代表一个基因,通过将这些单元放在树状图中,就产生了一个树状结构的图像。我们使用Pivot方法(Bederson, Shneiderman, and Wattenberg 2002)来生成树状图。映射后,我们根据基因的归一化表达水平给树状图着色,使表达水平的差异更加明显。具体来说,对于每个样本,我们将最高的表达水平映射为红色,最低的数值映射为蓝色,并使用线性完成。原始树状图图像为1024*1024像素,在输入到DCNN之前被子采样为512*512像素。
学习和评估
为了证明OmicsMapNet方法的有效性,我们进行了比较分析:使用没有二维树状图转换的基因表达数据,我们比较了逻辑回归和梯度提升决策树(XgBoost)的肿瘤等级预测的准确性。我们比较了Logistic回归和梯度提升决策树(XgBoost)在基因表达数据上的肿瘤等级预测的准确性,而没有进行二维树图转换。
此外,为了确认学到的CNN特征图的有效性,我们选择图中权重最高的10%,并与生成的图像进行比较,以分析其路径。
结果
TCGA LGG&GBM基因表达数据的转换
这一评估是使用KEGG数据库和TCGA数据集进行的,以澄清所生成图像的外观。
所提出的方法OmicsMapNet从KEGG BRITE层次文件中提取功能注释的层次结构,将基因分配给相应的子节点,并构建一个树状图象。起初,从基因表达矩阵中得到了20330个基因,通过剔除表达水平极低的基因,提取了17715个基因。这些基因被映射到KEGG IDs,并使用OmicsMapNet生成7095个基因和Tremap(以前的研究)的结构(基因的空间排列),其中包含10772个基因四分体(见下图)。在树状图中,每个四角形代表一个基因,每种颜色代表一个归一化的基因强度。在这个数据集中,对667个样本进行了RNA-Seq分析,其中607个标有WHO等级--衡量癌症严重程度的标准。
用DCNN学习和预测肿瘤样本的等级
这个分析的目的是阐明在生成的图像上使用深度CNN(DCNN)训练的准确性。
本研究中使用的DCNN(见下图)有三个Convolution和两个Dense,并以生成的treemap图像为输入,以相应样本的WHO等级为输出,以肿瘤样本的等级为标签进行训练。在我们的数据集中,607个TCGA LGG&GBM样本中,WHO II级、III级和IV级受试者的分布分别为215个、239个和153个,并采用10倍交叉验证法进行评估。平均准确率为75.09%(95%CI:70.38-79.79%),中位数为74.35%。从ROC曲线(见下图)来看,该训练模型中G2和G3的平均面积曲线(AUC)分别为0.86和0.83。另一方面,G4的平均AUC为0.99,表明G4可以与G2和G3区分开来,而且准确度更高。
使用OmicsMapNet、Logistic回归和梯度提升决策树对2级和3级样本进行分类。
本次评估的目的是比较和验证OmicsMapNet和相关方法的二级(G2)和三级(G3)分类性能。
作为相关的方法,我们使用了逻辑回归和XGBoost的梯度提升决策树,而提出的方法OmicsMapNet在DCNN架构和训练过程中使用了10次交叉验证(见下图)。结果,AUC的平均值为0.86(提议的方法),0.79(逻辑回归)和0.72(XGBoost)。
考虑到与样本数量相比,输入维度较大(2级:215,3级:239),为了减少过拟合,我们使用了逻辑回归和梯度提升法。为了减少过拟合,我们使用Logistic回归和梯度提升决策树(GBDT)对采样基因的子集进行分类。对于每个基因,我们取样50次,使用10倍交叉验证测量性能,并绘制AUC的平均值和标准偏差。这些结果表明,OmicsMapNet能够比其他基准算法更准确地对2级和3级样本进行分类(见下图)。
考虑
为了克服omics数据的高维度,我们调查和研究了深度学习算法的引入,特别是那些用于图像分析的算法。所提出的方法是利用TCGA癌症数据集和KEGG数据库中的基因表达水平构建树状图,从而生成图像数据。作为评估,我们用生成的图像作为输入构建了一个DCNN学习模型,并将所提出的方法与Logistic回归和XGBoost的分类精度进行了比较。结果证实,所提出的方法的分类性能很高,特别是对于高等级癌症。这些结果表明,结合数据库中的基因表达水平和生态信息生成的图像在癌症分类中具有很高的性能,而且结合其他疾病和非遗传信息生成的图像也有广泛的应用前景。
另一方面,由于本研究使用的数据集是一个癌症数据集,目前还不清楚它对其他疾病是否有效。由于生成的图像数据是基于对癌症的分析信息,对其他疾病的树状结构可能不同,对目标疾病的普适性可能缺乏。为了解决这个问题,预计将通过评估本研究中使用的数据集以外的其他数据集,特别是与基因密切相关的罕见疾病,来证明所提出的方法的有效性和稳健性。
与本文相关的类别