在一个白血病治疗策略模型中得到了复制!使用深度强化学习的白血病治疗政策的拟议决策框架

医疗 14/06/2021

三个要点
✔️ 有一种动态治疗制度（DTR），这是一种根据疾病进展、副作用和实验室值动态改变治疗方法而确定的治疗策略。
✔️利用深度强化学习从观察到的医疗数据中估计最佳动态治疗制度的框架的开发。
✔️期望实现建立一个可以支持DTR中复杂治疗决策的模型，并确定每个案例的最佳政策。

Deep Reinforcement Learning for Dynamic Treatment Regimes on Medical Registry Data
written by Ning Liu, Ying Liu, Brent Logan, Zhiyuan Xu, Jian Tang, Yanzhi Wang
(Submitted on 28 Jan 2018)
Comments: Published in final edited form as: Healthc Inform.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (stat.ML)

code：

背景

强化学习能否复制专家根据个人情况和症状进行的动态治疗？

本研究提出了一个基于深度强化学习的治疗决策框架，用于从观察到的医疗数据中估计最佳动态治疗制度（DTR）。DTR指的是一种治疗策略，根据疾病的进展、副作用和实验室值动态地修改治疗方法。近年来，人们对个性化医疗和DTR的引入越来越感兴趣，但在某些情况下，如白血病，医生很难判断过度治疗是否会在长期内恶化最终终点。对于这样的病例，提出最佳的治疗策略可能会导致预后和症状的改善。

在这项研究中，我们提议利用深度强化学习从急性和慢性并发症数据集中构建一个骨髓移植的决策支持模型。由于传统强化学习中使用的Q-learning难以处理状态和行为数量的增加，我们的方法使用深度学习模型来处理如此巨大数量的模式。

什么是动态治疗制度（DTRs）？

首先，简要介绍一下动态治疗方案（DTR），它是本研究的分析对象。

DTR是指一种治疗策略，根据疾病的进展、副作用和实验室值动态地做出治疗决定。例如，它被用来从预后的角度评估启动治疗的实验室值的适当标准。这种方法正在引起人们的注意，因为它对实现个性化医疗非常重要，因为它在选择治疗方法时考虑到了每个病人的特点和遗传信息。特别是在过度治疗的情况下，如癌症的放疗，导致最终结果和QOL下降，医生有时很难做出判断。此外，在有些情况下，持续使用具有强烈副作用的药物，如类固醇，会导致耐药性的产生，缩小了替代药物的选择范围。为这类病例提出最佳治疗方案，可能会导致预后和症状的改善。

以前关于DTR的研究和问题

为这些DTR推导出最佳模式的大部分工作都是在统计学领域报告的。这些方法大多使用随机临床试验的数据，对决策的多个阶段进行动态编程分析。换句话说，最佳顺序决策规则（策略）是根据追溯分析先前确定的决策阶段而得出的状态转换来估计的。在每个阶段，提出了一个使用Q-learning的价值函数参数化预测模型和一个使用结果加权学习（OWL）的分类模型来直接模拟决策政策。

另一方面，这些研究是在随机对照试验的基础上提出的，并且是在低维空间--基本上是二维空间--中构建的，这可能不适合处理高维空间的模型，如动态医疗方案。在DTR中，个体病例的高变异性预示着患者决策过程的高异质性，而在低维空间中表示的行为状态很难应用于治疗方案的高维数据（即电子病历和登记册数据）。为了应对这类数据的高维度，统计方法需要在一定程度上简化解释变量，而且很难分析多种因素，如数据元素之间的互动关系的情况。特别是在决策等复杂过程中，预计多种因素相互交织在一起，因此，这种简化极有可能不会产生一个最佳的DTR。在这种背景下，强化学习可能被引入到决策任务中，但简单的模型，如马尔科夫决定过程（MDP）可能无法处理许多DTR问题。然而，简单的模型如马尔科夫决定过程（MDP）可能无法处理许多DTR问题。在这项研究中，我们专注于深度强化学习，它是深度学习和强化学习的结合，如深度Q-神经网络（DQN）。我们的目标是建立一个接近专家决策的支持系统。

研究的目的

在这项研究中，我们旨在通过引入深度强化学习，为DTR开发一个个性化的顺序决策框架，以解决以往研究中存在的问题，即决策模型中的状态和行动空间的低维度。如前所述，以前的研究主要是针对随机定向试验提出的模型，由此推断，这些模型并不适合处理高维复杂空间的决策模型，如个体化治疗决策。因此，在本文中，我们提出了一个基于深度强化学习的框架，以提供基于医疗注册数据的数据驱动的顺序决策支持。更具体地说，为了对具有高维度的行为和状态空间进行建模，我们根据登记册数据收集的设计建立了一个离散时间模型，以处理数据集的高维度。

技术

数据集

我们正在分析一个自1972年以来收集的关于接受造血细胞移植（HCT）的患者的结果数据集。该数据涵盖了GVHD（移植物抗宿主疾病）的预防和治疗--由供体免疫细胞引起的免疫学损害--这是HCT后的一种常见并发症。GVHD可以在移植后6个月内发生，通常是急性的，解决起来相对较快；也可以在移植后立即发生，直到几年后，造成长期的并发症和疾病，所以需要根据这些特点来决定治疗。该数据集包括6021名在1995年至2007年间被诊断为急性骨髓性白血病（AML）的患者，采用移植后100天、6个月、12个月、2年和4年的标准随访数据。

此外，在每个表格被记录的时候，我们定义了强化学习中的状态和行为的转换。具体来说，我们将复发和死亡定义为聚合状态，将急性GVHD和慢性GVHD的发生定义为短暂状态。此外，它还包括三种与治疗政策有关的行动：在移植时应用的初始治疗（化疗治疗）、GVHD预防（为防止GVHD而对供体细胞进行免疫抑制），以及治疗急性和慢性GVHD的药物。

构建DTR中的状态转换

本研究中的状态转换模型定义如下：移植时t=0，100天后t=1，6个月后t=2，1年后t=3，2年后t=4，4年后t=5。我们还将深度强化学习应用于DTR中的三个任务：初始状态（防止复发的化疗），。我们还将深度强化学习应用于DTR中的三个任务：初始状态（防止复发的化疗），移植后的初始治疗，包括GVHD预防，以及急性和慢性GVHD的治疗。最初的预防治疗在移植时的t=0进行，急性GVHD的治疗在t=1（100天）和t=2（6个月）进行，而慢性GVHD的治疗在t=2（6个月）至t=5（4年）进行。

首先，我们建立了一个监督学习网络来预测地方政策的专家分布。所提出的方法根据基线信息预测移植时初始状态下的治疗政策和GVHD预防的分布，并考虑到时间变化，预测急性GVHD在100天和6个月的治疗分布，以及移植后2年内的慢性GVHD。

在移植后立即进行的情况下，输入（状态）是病人的基本信息（即年龄、性别和是否有合并症）和病人与供体的基因匹配信息，输出（行为）是初始治疗中防止疾病复发和GVHD预防的药物组合。在t = 1和t = 2的急性对于t=1和t=2的急性GVHD的治疗，输入（状态）是基本信息、配对条件和急性GVHD的存在，输出（行为）是治疗急性GVHD的药物组合。同样的状态和行为适用于t=2至t=5的慢性GVHD的治疗。为了消除行为空间的高维度，我们根据使用的药物组合对行为进行编码，将可选择的行为数量减少到大约270个。我们还使用自动编码器来加速收敛，并通过提取减少状态空间维数的特征来缓解过度学习。接下来，我们估计专家行为中的治疗方案中过渡概率最高的价值函数。目标值函数只评估那些概率最高的行为--状态转换概率低的行为的样本较少，通用性较差，缩小目标值可以降低计算的复杂性。对于奖励函数，我们的目标是在未来得到最佳治疗时的预期奖励的Q函数，并通过Q-learning来估计它。

在本文中，我们用一个简化的启发式奖励模拟了所提方法的初步实施。设置，包括简化的奖励，如下所示。对于每个病人i，在终端状态（死亡、复发、4年后无复发生存）或数据丢失时ti的延迟奖励被归为以下几类：无复发生存和无GVHD生存；有急性GVHD或慢性GVHD生存；白血病复发；死亡；数据丢失。对这五种情况分配不同的延迟奖励。无复发和无GVHD的4年生存率：奖励1.0；急性和慢性GVHD：奖励0.8；复发：奖励0.2；死亡：奖励零。我们还为初始条件（化疗和GVHD预防）和急性和GVHD治疗的DTR建立并训练了三个独立的深度神经网络（DNN）。对于每个时间戳t的DNN，我们把状态定义为输入，把专家的决定定义为行动。自动编码器降低了输入状态空间的高维度，而输出预测是行动的预期回报。

结果

专家行为的预测准确性

对慢性GVHD的专家行为的预测结果（图2）证实，在时间t=2-5时，前5名的预测准确率和个别的预测准确率都足够高，并随着时间的推移而增加。这也证实了通过对自动编码器和行动的聚类，减少了状态和行动空间的维数。状态空间的维度已从几十个减少到六个，而行动空间已从17维的二元向量减少到270个药物组合。

带有深度强化学习的DTR框架对慢性GVHD治疗的有效性

在这个评估中，我们将所提出的方法与随机行动选择方法在价值函数方面的性能进行比较，目的是澄清所提出的方法的性能。

评估结果（图3）证实了所提出的带有深度强化学习的框架在多个时间步骤上比随机行动选择的价值有所提高：价值提高高达21.4%。

考虑

这项研究提出了一个使用深度强化学习的系统框架，该框架基于对急性和慢性GVHD受试者长期随访的医学观察数据。虽然这些疾病的治疗选择决策需要专家们建立决策模型，但他们必须处理复杂的高维空间，如大量的状态和行为，这是很难用传统的Q函数处理的。所提出的方法旨在通过引入深度强化学习来妥善处理这种高维度的问题。结果显示，所提出的方法预测专家治疗决策的准确度很高，也比以前的方法提供了更好的价值。预计所提出的方法有可能通过优化病人的长期结果来支持决策，从而改善专家行为。

白血病是本研究关注的疾病，它提出了与顺序决策有关的其他问题--在移植和不移植之间的选择，以及移植的最佳时机--并将探讨其在这些问题上的应用。由于白血病的特点，如对死亡率高的患者参加随机试验的实际困难，治疗费用高，以及难以招募到足够的样本来提高检测能力，因此，实施所提出的方法有望降低收集此类新数据的成本。

另一方面，还有一些问题，如建立模型所需的计算成本--计算量和计算时间--以及实际执行中的问题--实际决定由病人或医生来做。特别是，虽然传统的方法，如Q-learning，可以考虑到高维度，这是很难处理的，但需要处理的计算量趋于增加。为了处理这些问题，我们可以通过使用CNN的卷积处理，反强化学习来估计专家行为的奖励函数，以及引入马尔科夫决策过程（MDP）来降低计算的复杂性。