赶上最新的AI论文

人工智能已经超过了专科医生!一个强化学习代理提出了一个探索性的癌症治疗方法!

强化学习

三个要点
✔️ 在迅速增加的癌症患者中,上皮性卵巢癌仍然显示出较低的生存率,使得确定适当的治疗策略成为一项挑战。
✔️ 利用基于马尔科夫决策过程的无模型学习(DQN) - MDP
✔️ 证实代理人得出的治疗方案与专家提出的制度相比,提高了平均生存率

Patient level simulation and reinforcement learning to discover novel strategies for treating ovarian cancer
written by Brian MurphyMustafa Nasir-MoinGrace von OisteViola ChenHoward A RiinaDouglas KondziolkaEric K Oermann
(Submitted on 22 Oct 2021)
Comments: Published on arxiv.

Subjects: Machine Learning (cs.LG)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

背景介绍

从现实世界的数据中进行强化学习能否用于提高生存率?

在这项研究中,我们提出了一个考虑到个体特征的上皮性卵巢癌的动态制度,通过使用强化学习--MDP和DQN。与其他癌症疾病相比,上皮性卵巢癌在改善生存率方面仍然是一个挑战。此外,在这种癌症的治疗中,主要使用多药化疗,因此很难通过统一的治疗达到有效的效果;因此,有必要引入一种灵活的治疗制度--动态制度,考虑到个人的特点。有必要引入一个动态制度。

在这项研究中,我们旨在通过使用基于现实世界数据的强化学习--MDP和DQN--来解决这些挑战,从而得出一个考虑到病人特征并提高生存率的治疗策略--动态制度。-考虑到病人的特点,提高生存率。为了利用强化学习,我们设计了一个环境,对上皮性卵巢癌的治疗历史进行建模,并与代理人互动,以得出一个考虑到个人特点的动态制度。该研究有三个主要特点:利用关于转移性卵巢癌个别治疗反应的真实世界数据创建一个模拟环境;创建一个模拟,其中代理人选择治疗策略,目的是使回报最大化--总生存期。我们引入了无模型强化学习(DQN),通过学习找到最佳解决方案,并测试了其有效性。

什么是上皮性卵巢癌?

首先,简单介绍一下上皮性卵巢癌,这也是本研究的主题。

上皮性卵巢癌是一种在覆盖卵巢表面的组织中出现恶性(癌)细胞的疾病,在中年妇女,特别是40多岁和60多岁的妇女中发病率增加。在疾病的早期阶段,没有任何症状,而疾病往往在晚期才被发现。报告的最常见症状是:腹部疼痛和肿胀;盆腔疼痛;胃肠道症状,如气体、腹胀和便秘。也有报道说,大约25%的卵巢癌在子宫内膜细胞学检查中呈阳性,立体健康检查增加了预防的机会。

该病有四个阶段--第一阶段、第二阶段、第三阶段和第四阶段--每个阶段都有相应的治疗。目前经常使用的治疗方法主要有三种:手术治疗:通过手术切除肿瘤;放射治疗:使用高能X射线或其他形式的辐射来清除癌细胞并抑制其生长;化学治疗:使用药物来杀死癌细胞或阻止其分裂。上皮性卵巢癌是所有妇科癌症中对化疗--抗癌药物最敏感的,手术和化疗相结合是最常见的治疗方法:在第一阶段,考虑手术--卵巢部分--和化疗。在第一阶段,考虑手术-卵巢部分-和化疗;在第二、第三和第四阶段,采取手术和化疗-抗癌治疗。

药物治疗涉及多种药物的使用和广泛的治疗策略,如将化疗与免疫治疗或放疗相结合,调整给药时间和使用不同的给药途径;因此,一些治疗策略的预后可能比其他策略更差。因此,有必要考虑到病人的特点和病情,确定最适合个人的治疗策略。

什么是动态制度--动态制度,DTR--?

动态治疗方案--动态治疗方案,即DTR,是指根据病人的疾病进展、副作用和实验室值来决定治疗的方案--治疗策略、治疗计划和用药方案。DTR是一个疗程--一个治疗计划,一个治疗计划和一个服药计划--根据病人的疾病进展、副作用和实验室检查来决定治疗。该方案通常在化疗后进行;这有助于防止药物过量等医疗错误。动态治疗方案更加灵活,允许根据病人的情况改变治疗方案,以实现更理想的治疗方案;这样做的好处是可以为每个病人选择最合适的治疗方案。在发生副作用使最终终点恶化的情况下--如过度开药--以及替代药物选择有限的情况下--如通过持续使用产生耐药性的情况下,DTR特别有用;但是,也有一些挑战,如成本增加,包括更频繁的治疗决定;以及对更多专业知识的需求。这项研究的目的是通过使用强化学习--DQN--得出更准确的动态制度来解决这些挑战。

研究目标

我们提出了一种利用无模型强化学习推导上皮性卵巢癌动态制度的方法:具体而言,我们使用基于马尔科夫决策过程的无模型强化学习--DQN--来构建一个旨在提高生存率的环境。环境,以改善生存。上皮性卵巢癌的治疗通常涉及多种药物和多种治疗方式,这就需要根据治疗的进展来修改治疗策略和决定。为了应对这一挑战,我们旨在开发一种利用强化学习推导出动态制度的方法。强化学习包含有效的决策算法,如顺序决策,可用于推导此类动态制度的最佳治疗策略--在这种方法中,癌症临床试验数据--如TCGA该方法旨在将癌症临床试验数据--如TCGA--制定为一个模拟环境,以得出最佳的治疗决策。

方法

数据来源和预处理

在这一节中,我们描述了本研究中使用的数据以及数据的预处理。数据来源是一个癌症数据库--癌症基因组图谱(TCGA)--根据以往的研究,我们从中获得了609名上皮性卵巢癌患者的综合治疗计划和结果。从这个数据库中,我们根据以往的研究,获得了609名上皮性卵巢癌患者的综合治疗方案和结果。我们还利用几个库对数据集进行预处理--NCI药物字典,Broad GDAC Firehose:我们使用药物标准化指数将所有药物名称转换为其通用的等价物。我们使用药物标准化指数,将所有药物名称转换为其通用名称。除此之外,我们还从治疗计划数据中删除了那些没有治疗线药物名称、开始和结束日期相同、治疗线时间不明确的患者,并排除了没有达到总生存终点的患者--最终460名患者中的225名患者被纳入其中(见下表)。

然后将数据重新组织为30天的治疗期。重组后的数据集由9296个一个月的治疗期样本组成,每个治疗期都包含患者ID、开始治疗后的月数和当前治疗药物组合。这些数据包括127种不同的药物组合和一个 "不积极治疗 "的选项,我们利用最终生存指标为死亡事件的患者子集建立了一个强化学习环境:5,931个一个月的治疗时间样本,包括它包含107种独特的药物组合和 "无积极治疗"。

建立强化学习的环境

在本节中,我们描述了强化学习发生的环境。

基于上述数据,我们构建了一个基于马尔科夫决策过程(MDP)的环境,以模拟上皮性卵巢癌患者的动态机制:每个状态包括患者的状况、对当前治疗的反应、自治疗开始以来的时间、总的治疗时间、年龄、种族和肿瘤的具体信息--肿瘤等级和阶段。每个状态包括病人状态、对当前治疗的反应、开始治疗后的时间、总的治疗时间、年龄、种族和肿瘤特定信息--肿瘤等级和阶段;药物行动包括所有独特的治疗组合--不包括TCGA卵巢癌数据集中不存在的药物组合。不包括TCGA卵巢癌数据集中不存在的组合。

存活率模型

在这一节中,我们描述了我们用来建立环境的可行性模型。

这里描述的生存模型是指每个病人在特定时间接受特定的治疗,从一个状态到下一个状态的一组过渡概率。每个状态转换都包含两组概率,这些概率决定了下一个状态:第一组决定了病人是以概率P(D)死亡还是以概率P(S)=1-P(D)生存。在死亡的情况下,病人随即成为死亡--最终状态--并进入下一个过程;在存活的情况下,应用第二个概率:它决定了病人在下一个状态下是处于缓解状态还是需要进一步治疗 P(T) = 1 - P(R) (见下文)。

在计算这些概率时,我们还利用了两个多变量的Cox比例危害回归:对于状态的概率,我们用终末死亡事件和开始治疗以来的月数来计算基线危害;对于生存状态的概率,我们用复发/缓解和当前治疗方案的月数来计算基线危害(见下文)。目前治疗方案的几个月(见下文)。

然后,我们根据(病人的当前状态--行动)对每个回归的生存函数进行抽样,得到P(D)、P(S)、P(R)和P(T)。奖励被设定为行为𝑎没有导致死亡的患者的生存月数之和。

强化学习模型

在这一节中,我们描述了评估中使用的强化学习。

该研究利用了一种无模型的深度Q网络(DQN):代理人根据观察到的状态转换选择行动(药物组合),而状态-行动对被送入一个概率决定状态的MDP。代理人在200,000个回合(1回合=1个模拟病人)中接受了训练,以前病人的轨迹成为DQN的训练数据集(见下文)。

DQN代理的最终性能是根据两个指标来评估的--从前1000名病人计算出的平均基线存活率;以及训练数据中最后1000名病人的平均模拟存活率,与最后1名的平均存活率相比。最后1000名病人的平均生存率与临床医生治疗的病人的平均生存率进行比较。用于建立MDP的数据集也被用来评估结果,将行动限制在出现五次以上的药物组合上--以防止在不反映一般治疗的特殊情况下学习。

结果

为了测试所提出的方法中动态制度的有效性,我们评估了专家的生存时间作为一个比较器。

存活时间的比较

这项评估的目的是以生存时间作为衡量标准,将所提出的方法与专家治疗策略进行比较。

采用建议的方法,前1000名患者的平均生存期为32.3个月,最后1000名患者的平均生存期为42.9个月;从而表明,与肿瘤学家主导的治疗策略相比,实现了更高的生存率--平均生存期为26.4个月。(见下图)。

专家们最常开出的是卡铂和紫杉醇作为一线治疗,随着时间的推移,改用拓扑替康、多柔比星、卡铂和紫杉醇单药治疗;而拟议中的方法则导致了几乎持续给予醛固酮的策略(见下文)。

我们还评估了一个有限制的行为集的模拟,看看所提出的方法在限制于更常见的治疗时是否会产生一个替代策略。100万次模拟后,所提出的方法得出了吉西他滨和他莫西芬的组合,并随着时间的推移转移到其他方案--如顺铂和他莫西芬(见下文)。在一百万次模拟之后,所提出的方法得出了吉西他滨和他莫西芬的组合,并随着时间的推移转向了其他方案,如顺铂和他莫西芬的组合(见下图)。

在这些研究之后,所提出的方法在平均生存期方面比专家们有了明显的改善:与基线(前1000名病人)的43.4个月相比,最后1000名病人的平均生存期为45.5个月(见下文)。

考虑因素

在这项研究中,我们提出了一种针对上皮性卵巢癌的算法,利用强化学习来创建一个基于真实世界数据的新动态制度。由于治疗策略的多样性,已经描述了引入能够考虑到病人病情的动态制度的必要性,但也发现了诸如成本等挑战。在提出的方法中,我们对上皮性卵巢癌的治疗和结果进行了病人层面的模拟,建立了一个基于DQN的环境,并旨在得出一个考虑到个人特征的最佳动态制度。评估结果显示,与专家相比,用所提方法训练的代理人提高了总体生存率。

未来可能需要的额外评估是使用测试数据对预先训练好的代理进行动态制度的评估--临床应用需要这样一个多功能的数据集,其中强化学习代理的学习需要得到验证。因此,未来的方向之一是将肿瘤学家的决策与真实病人的决策进行比较,使用病人的医疗记录和实验室数据,在每个治疗阶段提出治疗建议。

与这项研究有关的问题包括:验证代理人的质量;考虑正在评估的模型以外的生存模型。首先,学习代理的质量受到模拟器保真度的限制--只利用了在TCGA数据集中达到总生存终点的患者,限制了整体样本量。解决这些样本量挑战的办法是从多个综合癌症中心和临床试验数据库中收集足够的数据:以前的研究表明,每个病人至少需要一个数量级(225个病人),最好是两个数量级。第二,对生存的数学模型进行额外的验证。由于模拟结果显示,未经训练的DQN代理人在平均存活率方面优于临床医生,因此存活率模型需要进一步完善:需要考虑本研究中使用的多变量Cox比例危害回归以外的存活率模型,并测试其对存活时间的影响。生存模式需要进一步改进。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们