癌症状况在手术前就可以预测! 利用机器学习对卵巢癌进行术前预测的拟议框架
三个要点
✔️在这项研究中,我们利用监督机器学习从术前血液测试数据中开发了一个高度准确的癌症特征预测模型。
✔️根据预测模型获得的知识,我们提取与预后相关的病例特征,研究晚期癌症的分类模式。
✔️开发高度准确的预测模型发现了一个新的与预后有关的疾病分类,这不是从以前的临床知识中得到的。
Application of Artificial Intelligence for Preoperative Diagnostic and Prognostic Prediction in Epithelial Ovarian Cancer Based on Blood Biomarkers
Written by Eiryo Kawakami, Junya Tabata, Nozomu Yanaihara, Tetsuo Ishikawa, Keita Koseki, Yasushi Iida, Misato Saito, Hiromi Komazaki, Jason S. Shapiro, Chihiro Goto, Yuka Akiyama, Ryosuke Saito, Motoaki Saito, Hirokuni Takano, Kyosuke Yamada and Aikou Okamoto
( Submitted on 15 May 2019)
Comments:Clinical Cancer Research 25(10)
Subjects: Machine Learning (cs.LG); Machine Learning (stat.ML)
背景
有可能通过机器学习在手术前了解癌症的病理和预后吗?
本研究的目的是开发一种算法,仅使用术前信息,如血液检查数据,来预测卵巢癌的特征。卵巢癌是女性最常见的生殖系统肿瘤之一,其预后往往不佳。 因此,有必要确认卵巢癌的病理生理学,以确定治疗策略。有必要了解卵巢癌的发病机制--良性或恶性等特征,进展阶段和预后。在以前的研究中,对卵巢癌的分期和组织学类型的预测主要是通过统计学方法进行的,但目前还没有有希望的生物标志物。在这项研究中,基于多种生物标志物和临床变量,我们利用监督机器学习算法建立了专门用于预测卵巢癌发病机制的模型,并建立了一个模型来估计EOC患者治疗前的临床分期、组织学类型、手术结果和预后。此外此外,我们还报道了在癌症晚期病例的分类中,利用无监督聚类方法从地块中提取的特征,获得了与卵巢癌预后有关的新的疾病分类,这不是通过传统的临床知识获得的。这些发现有望在其他疾病的术前预测和个性化医疗方面得到应用和发展。
什么是上皮性卵巢癌(EOC)?
首先,让我们简单地讨论一下卵巢癌。
卵巢癌是女性生殖器肿瘤中预后最不利的癌症之一,近年来死于该病的人数不断增加,已引起人们的关注。根据组织学发现,这种疾病至少可以分为五种类型(高度异质性浆液性癌、低异质性浆液性癌、子宫内膜癌、粘液性癌和透明细胞腺癌),根据是否有转移,可以分为早期癌(I期和II期)和晚期癌(III期和IV期)(见世界妇产科联合会(FIGO))。世界妇科和产科联合会(FIGO))。虽然手术切除肿瘤被认为是治疗的首选,但与其他癌症疾病相比,化疗的反应相对较好,所以手术前后的化疗是一种常见的治疗策略。除了对化疗的反应因肿瘤的阶段和组织学类型不同而有很大差异外,最近推出的有效抗癌药物,如PARP抑制剂和抗体药物,也在研究之中。在这种背景下,术前预测癌症的阶段和组织学类型将使我们能够为每个病人选择适当的治疗策略。
先前的研究问题和研究目标
以前关于卵巢癌的研究报告了预后与进展阶段和组织学类型之间的关系,主要使用统计学方法。另一方面,由于在实际的临床实践中,需要通过手术和活检等高侵入性的程序来确定这些因素,因此很难预测卵巢癌的特征,如良性/恶性、进展阶段和预后,也很难仅利用术前信息来确定治疗策略。也有人提出了基于生物标志物和多种临床因素的统计预测模型,但由于变量之间的勾稽关系等问题,人们认为用这些方法很难处理具有多个输入变量的大规模数据并提取适当的特征。
在此背景下,在本研究中,我们利用基于多种生物标志物和临床变量的机器学习算法,建立了一个模型来估计治疗前EOC患者的临床分期、组织学、手术结果和预后,特别是对卵巢癌的预测。
技术
数据集
在这次验证中,我们使用了2010年至2017年期间收集的334名上皮性卵巢癌(EOC)恶性卵巢肿瘤患者和101名良性卵巢肿瘤患者的后向队列数据集进行分析。肿瘤按照FIGO分类法(2014)进行分类,并采用临床病理参数,如诊断时的年龄、临床分期、初次手术后的残余肿瘤大小和32种术前外周血生物标志物。此外,对于所有的变量,重复进行随机抽样,将其分为训练组和测试组,直到没有明显的差异(P值≥0.20)。结果,168名EOC患者和51名良性卵巢肿瘤患者被分配到培训,166名EOC患者和50名良性卵巢肿瘤患者被分配到测试。
学习模式和评价方法
本研究考虑的模型包括梯度提升机(GBM)、支持向量机、随机森林(RF)、条件RF(CRF)、奈何贝叶斯(Naïve Bayes)、神经网络和弹性网被用作七个有监督的机器学习分类器。使用10倍交叉验证法训练分类器,并在测试数据集上评估其分类预测性能。
结果
基于多种术前血液标志物的EOC和良性肿瘤的性能评估
这项评估比较了基于32个外周血标志物的多重逻辑回归分析和使用每个标志物的单一逻辑回归分析,以考察卵巢肿瘤特征的预测因素(见下图)。
使用上述评价方法,预测性能为86.7%(正确率)和0.897(AUC),证实了其比单一回归线性模型的优越性。我们还报告了在相同的测试数据(包括32个外周血标志物)上使用监督机器学习预测EOC时,比基于传统回归方法的模型性能更高。具体来说,结合决策树的集合方法,如GBM、RF和CRF,对EOC的预测性能最好:RF对良性卵巢肿瘤和EOC的分类精度为92.4%(正确率)和0.968(AUC)。
(图1)
使用预后相关的机器学习方法进行无监督的聚类分析。
本分析的目的是根据预测卵巢癌晚期的结果来阐明这些病例的特点。
在上述验证结果中,预测癌症进展阶段的表现证实,其准确性低于区分良性和恶性疾病的准确性(AUC=0.760)。针对这一结果,我们假设可能存在早期卵巢癌和晚期卵巢癌术前验血模式相似的情况,并使用无监督的随机森林方法进行无监督机器学习验证,计算样本的相似性。
为了验证结果,我们用多维缩放法(MDS)生成了二维分布图,这是一种应用32项诊断年龄和术前血液检查数据的方法,将术前血液检查模式相似的病例放在一起,将模式不同的病例放在远处。绘制的图谱。结果,以RF异质性为输入的MDS图将良性肿瘤患者与晚期EOC患者明确分开,而早期癌症则被分为术前血检模式与良性肿瘤相似的病例(第1群)和术前血检模式与晚期癌症相似的病例(第2群)。该研究的结果已被报告。群组1几乎没有复发,而群组2的复发率和死亡率较高,表明与预后有很大关系。此外,几个血液标志物在早期EOC的两个群组之间显示出明显不同的结果。据报道,这组早期卵巢癌与已经知道的晚期(I期和II期)不同,这是本次验证中获得的新发现。
考虑
本研究的目的是利用机器学习算法,开发一个仅基于术前信息预测卵巢癌状态(良性、恶性等)的模型。为了构建模型,我们使用了卵巢肿瘤患者(334名恶性卵巢肿瘤患者和101名良性卵巢肿瘤患者)的32项年龄和术前血检数据,并使用随机森林和SVM等监督机器学习算法证实该模型预测恶性和良性肿瘤的准确率很高。恶性和良性肿瘤。此外,利用MDS图对晚期卵巢癌进行的无监督聚类方法显示,存在类似于良性肿瘤的聚类和类似于晚期癌症的聚类2。作者报告说,他们通过调查病人的一般情况,即术前血液检查数据,发现了一个新的分类,这是现有知识中没有的。通过推进这项研究,有望在手术前高度准确地掌握卵巢癌的状况,而不需要高侵入性的手术,这将对有关预后的治疗政策决策产生重大影响。
另一方面,有两个问题:整体样本量小(约400名患者),而且由于是横断面关联,风险因素不明确。为了解决这些问题,最好是进行有更多病人的前瞻性队列研究,并进行包括时间序列分析在内的分析,以澄清因果关系。
与本文相关的类别