是否可以通过考虑不确定的因素来预防副作用的发生?我们提出了一个结合贝叶斯和强化学习的系统!
三个要点
✔️ 专注于模型知情精确给药 - MIPD - 使用治疗药物和生物标志物监测来提高药物治疗的有效性和安全性。
✔️ 我们提出了一种新的MIPD方法,结合贝叶斯数据同化(DA)和强化学习(RL)。
✔️ 我们还表明,RL奖励函数可用于识别剂量决策中的患者因素。
Reinforcement learning and Bayesian data assimilation for model‐informed precision dosing in oncology
written by Corinna Maier, Niklas Hartung, Charlotte Kloft, Wilhelm Huisinga, Jana de Wiljes
(Submitted on 7 Mar 2021)
Comments: CPT Pharmacometrics Syst Pharmacol.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的 。
背景介绍
是否有可能根据不确定的个体特征,在预防副作用的同时提高治疗的有效性?
本研究的目的是在贝叶斯模型和强化学习的基础上,考虑到不确定的个体特征,推导出一个最佳的剂量和治疗策略,用于模型知情的精确给药(MIPD)。项目的目的是
个性化用药,即针对每个人的情况以最合适的剂量提供药物和其他物质,有望通过减少不必要的副作用的影响来提高药物的安全性和有效性--副作用的发生和治疗的有效性因人而异,并且受到不确定性的影响,包括药物的影响范围。副作用的发生和治疗的效果因人而异,而且存在不确定性,包括药物疗效的程度。这些副作用之一是癌症治疗中的中性粒细胞减少症:由于药物治疗对免疫细胞的抑制,导致对感染的易感性增加的一种症状。这种副作用增加了肺炎和流感等疾病的发病率,并增加了未来预后恶化的可能性;因此,有必要得出一个最佳剂量,以防止药物的副作用并不影响药物的有效性。
为了解决这些问题,我们提出了三种控制中性粒细胞减少症的方法,使用贝叶斯数据同化(DA)和强化学习(RL)。我们提出了三种控制中性粒细胞减少症的方法:贝叶斯数据同化法--DA指导用药;强化学习法--RL指导用药;以及贝叶斯和强化学习相结合的方法--DA-RL指导用药。和强化学习--DA-RL指导的。这些方法考虑到了具有不确定性的个体特征,旨在得出一个治疗有效的药物治疗方案,同时减少癌症治疗的副作用--中性粒细胞减少症。
什么是基于模型的精确给药 - MIPD?
首先,我们想简单地解释一下本研究中所使用的模型指导下的精确给药--MIPD。
MIPD考虑到药物-疾病-患者系统、相关变异性的先验知识--例如非线性混合效应分析--以及患者特定的治疗药物/生物标志物监测(TDM)数据被纳入考虑范围,以澄清剂量的个体化方法。然后根据效用函数或目标浓度对MAP得出的结果进行评估,以确定下一个剂量。从MAP得出的结果相对于效用函数或目标浓度进行评估,以确定下一个剂量--MAP指导下的给药;然而,许多疗法已被确定为具有亚治疗范围或毒性范围,因此很难定义目标浓度或考虑到这些不确定性的效用函数:在治疗范围的情况下,可能得到有偏见的点估计。在处理区的情况下,以前的研究表明,MAP预测是不合适的,因为使用了有偏见的点估计,而忽略了范围外的不确定性。 通过结合贝叶斯模型和强化学习,我们旨在开发一种考虑到这些不确定个体特征的方法。
什么是中性粒细胞减少症?
本节介绍本研究中评估的中性粒细胞减少症。
中性粒细胞减少症是抗癌化疗的一种副作用,会导致中性粒细胞(一种免疫细胞)的数量减少:在严重的中性粒细胞减少症中,中性粒细胞的粒细胞减少,免疫系统不能正常运作,导致对威胁生命的感染的敏感性增加。根据中性粒细胞的最低浓度--纳迪尔--中性粒细胞减少症的g级分类如下--无中性粒细胞减少症(g=0)到危及生命的级别(g=4)。中性粒细胞减少症也可作为药物剂量疗效的代用指标--中位数[总生存期];因此,中性粒细胞浓度被用作生物标志物,以得出引起中性粒细胞减少症的化疗药物剂量和治疗策略。因此,中性粒细胞的浓度可以作为生物标志物,以得出引起中性粒细胞减少的化疗药物剂量和治疗策略。
研究目标
这项研究的目的是开发一个系统来预防中性粒细胞减少症,这是癌症治疗的一种副作用,并根据症状得出适当的药物剂量。我们提出了三种基于贝叶斯数据同化(DA)和强化学习(RL)的模型:DA指导下的剂量;RL指导下的剂量。第一种方法--DA指导下的给药--利用贝叶斯模型,通过考虑不确定的参数,得出更准确的给药计划,并在现有的基础上进行改进。第二种方法,RL指导下的投药,使用蒙特卡洛树搜索(MCTS)和置信度上限(UCTS)。-上信心树(UCT),旨在改善学习策略;第三种方法-DA-RL指导-结合DA和RL,旨在改善TDM-治疗学/生物技术第三种方法--DA-RL指导--结合DA和RL,并利用TDM--治疗性药物/生物标志物监测--数据来说明不确定的个体特征,并从奖励函数等方面提高可解释性。该评估将这些方法与现有的方法进行比较,以期解释影响剂量性能和剂量选择的因素。
方法
在这一节中,我们描述了所提出的方法--DA指导下的投药;RL指导下的投药;DA-RL指导。
假设的环境
在本研究中,我们将紫杉醇--一种抗癌药物--的化疗用药计划作为一个假设环境:1个周期𝑐=1,⋯,𝐶--共6次我们考虑每3周一次的单剂量计划,一个周期(𝐶=6)-。对于剂量的选择,医生使用关于病人的各种信息来源--协变量cov:性别、年龄等;治疗史:药物、给药方案等;PK/PD的TDM数据:药物浓度、反应、毒性等。尽管有这些多种信息来源,但获得的信息是片面的和不完整的,因为每个时间点只有少数的噪声测量值;因此,MIPD将有关药物-病人-疾病系统的先前信息与病人特定的TDM数据联系起来。因此,MIPD将药物-病人-疾病系统的先前信息与病人特定的TDM数据相结合。
患者状态(下面的方程)由协变量性别和年龄组成,它们是暴露的重要预测因素,以及药效模型的参数:绝对中性粒细胞计数ANC0和以前周期的中性粒细胞减少等级𝑔。
MIPD框架
在本节中,我们将讨论要分析的MIPD。
在这项研究中,MIPD是建立在从临床试验的NLME分析中获得的先验知识--非线性混合效应模型。结构性和观察性模型如下
本研究中的建议被总结为以下三种方法
(i) 离线方法支持预先计算的模型知情给药表-MIDTs-以及基于给药决策树的剂量个体化。在治疗开始时,根据病人的协变量和基线测量结果推荐一个剂量,在治疗期间,观察到的TDM数据是
表和树是用来确定路线的。治疗是针对病人个体化的--不确定性被考虑在内--但剂量个体化程序本身并没有改变;也就是说,树和表是静态的。
(ii) 在线方法根据病人的模型状态和模拟结果确定推荐剂量:使用贝叶斯或MAP-最大后验法同化单个TDM数据后验分布和MAP点估计被推断为病人的模型状态。由于处理难度大,这种方法需要单独的信息技术基础设施和软件在临床实践中实施,而参数则根据病人的情况而定。
(iii) 离线-在线方法结合了剂量决策树和个体化模型的优势。这个模型通过数据同化(DA)和不确定性在强化学习方法中增加了先验状态的信息,旨在建立一个更精确的模型,考虑到更精确的个人特征。个体化模型主要用于两个目的:从稀疏观察的TDM数据中进行准确的状态推断--采样--以及剂量决策树的个体化。
奖励功能
理想情况下,强化学习中的奖励函数(下面的方程式)应该对应于对病人有益和有害的效用。在这项研究中,我们对与1-4级中性粒细胞减少症相关的短期目标--避免危及生命的4级--的惩罚要大于长期目标--增加中位[总]生存期。DA还允许考虑个别量化的不确定性--在目标范围内或超出目标范围的概率,从而形成一个更接近临床实践的模型。
RL指导下的剂量
这里我们描述了一种利用强化学习(RL)得出药物治疗策略的方法。
在RL中,感兴趣的任务被表述为马尔科夫决策过程--MDP--它模拟了不确定情况下的顺序决策:被视为随机的最优控制。虚拟医生的目标是确定在一个不确定的反馈环境中--虚拟病人--应该采取什么行动&,以优化特定的长期预期回报--反应。代理人--虚拟医生--在RL中的目标是学习和推导出什么行动和策略是最好的,以便在一个不确定的反馈环境--虚拟病人中优化特定的长期预期收益--反应。
MDP由状态𝑆𝑐、行为𝐷𝑐和奖励𝑅组成,其中下标𝑐是时间-处理循环。-,而情节则对应于可能性树中的路径。我们还将病人状态的过渡定义为过渡概率ℙ[𝑆𝑐+1=𝑠𝑐+1|𝑆𝑐=𝑠𝑐,𝐷𝑐+1=𝑑𝑐+1],这使我们能够考虑到不确定性。奖励由奖励函数决定(即𝑅𝑐=𝑅(𝑆𝑐)),该函数模拟剂量政策𝜋如何选择下一个剂量(下面的方程式)。
因此,该政策定义了虚拟医生-代理的行为和策略。剂量政策是根据时间步骤𝐺𝑐的回报𝐺𝑐来评估的,定义为剩余治疗期的奖励的加权总和(见下面的方程式)。贴现因子𝛾∈[0,1]调整短期治疗目标--𝛾→0--和长期治疗目标--𝛾→1--为设置的目的是使预期长期收益qπ最大化。
此外,在依赖抽样的基于模型的RL中,为了通过抽样近似估计期望值,多个变量--年龄、ANC--被离散为协变量类别ℭ。𝔒𝔙𝑙, 𝑙 = 1, ⋯, 𝐿,以离散它们,方便计算。政策𝜋𝑘也定义如下(如下)。其中𝑁𝑘(𝑠,𝑑)是在病人状态𝑠中,在前𝑘次发作中选择剂量𝑑的次数,并且𝐺𝐺(𝑘)𝑐=𝑟(𝑘)𝑐+1+𝛾(𝑘)𝑐+2+⋯.
开发--选择已知高回报的剂量--与探索--选择可能有更高回报的新剂量之间的权衡我们使用蒙特卡洛树搜索--MCTS--和应用于树的置信度上限--UCT--与以前的研究相结合。我们使用蒙特卡洛树搜索-MCTS和应用于树的置信度上限-UCT。为了收敛政策,最终的政策是 𝜋∗=argmax𝑞̂ 𝜋UCT-𝜀𝑐=0:无搜索-最后的政策是
DA指导下的用药
本节介绍了一种用于推导剂量计划的贝叶斯数据同化-DA方法。该方法旨在对治疗结果进行无偏预测,并对所分析的参数--中性粒细胞减少的等级--的不确定性进行全面量化,比基于MAP的方法考虑到更多的信息。我们可以通过推断病人的不确定性并将其加入预测的治疗时间来预测结果发生的概率:为此,使用贝叶斯模型对各个模型参数的不确定性进行连续更新。
对于后验分布,我们利用抽样的近似值--抽样的近似值代表病人的状态,而权重系数ω定义了发生的频率。该模型的优点是能够显示亚治疗效果和毒性范围的后验分布--很低或很高的药物/生物标志物浓度--并说明这些不确定性:在本研究中,错过最佳剂量的目标范围的加权风险是最小的。在本研究中,最佳剂量是指使错过目标范围的加权风险最小化的剂量--后验概率为𝑔𝑐=0和𝑔𝑐=4(见下式)。由于4级是不利影响的范围,所以要增加更大的惩罚。
DA-RL指导下的配料
本节介绍一种DA指导和RL指导相结合的方法--DA-RL指导下的投药。
该方法在RL中整合了DA个体化的不确定性,并取得了以下优势:使用平滑的期望值;考虑基于个体的不确定性。对于前者,它允许使用对感兴趣的数量--预测的底线浓度--的平滑后验预期,而不是观察到的等级--在某一天测量的中性粒细胞浓度;因此这减少了测量噪声的影响和对采样日期的依赖。对于后者,可以在RL方案的模型模拟中从后验概率𝑝(𝜃|𝑦1:𝑐)取样--即有可能在个体基础上而不是在群体基础上从不确定性中取样。
此外,由于DA指导下的实时运行(在线),分析范围缩小,以减少计算的复杂性:不是所有的状态组合都包括在内,而是只有那些与治疗的其余部分相关的状态组合。此外,我们不是从头开始估计行动价值函数,而是通过𝑞𝜋0:=𝑞ˆ𝜋UCT作为TDM数据之前由RL方法确定的先验分布-。开发-探索权衡的调整参数𝜀𝑐被设定为优先考虑具有较高先验预期长期收益的剂量。
结果
在本节中,我们将提出的三种方法--DA指导下的用药;RL指导下的用药;以及DA-RL指导下的用药--与以前的研究进行比较,得出考虑到个体特征的用药方案,并评估其对预后的影响。将与以前的研究相比较,评估对预后的影响。
4级和0级的中性粒细胞减少症
在此,我们评估了以前的研究和针对癌症治疗的副作用--中性粒细胞减少症的拟议剂量策略:具体而言,我们比较了基于紫杉醇化疗的TDM数据的MIPD的拟议方法和现有方法。我们将把提出的方法与现有的基于紫杉醇化疗的TDM数据的MIPD方法进行比较。
这项评估的设计与之前的一项研究--CEPAC-TDM研究相对应,其中每个周期第0天和第15天的中性粒细胞计数是使用紫杉醇--一种抗癌治疗的药物动力学/药效学(PK/PD)模型来计算的,累积中性粒细胞减少。采用了中性粒细胞减少的药代动力学/药效学PK/PD模型。六个周期,每个周期三周,预测的中性粒细胞浓度(见下文)--中位数和90%的置信区间(CI)--显示,当中性粒细胞上升时,浓度在目标范围内--1-3级,在黑色横线之间。-中位数和CI都在目标范围内。这一结果表明,PK指导下的治疗可以防止纳达尔浓度--最低中性粒细胞浓度--下降到与标准治疗相同的程度。
在RL指导下的给药中,中性粒细胞浓度在各周期之间得到了很好的控制,而且整个人群中的最低点浓度分布集中在目标范围内(见下文);在DA指导下的给药中,最低点浓度被稳定地引导到目标范围内,而且结果的方差--变化性在DA指导下的给药中,底线浓度稳定地进入目标范围,导致方差--结果的变异性减少;而在DA-RL指导下的给药中,底线浓度进入目标范围,导致方差减少。
另一方面,每种方法对0级和4级有不同的解释:在PK指导下,0级的发生率增加了(见下文);在DA指导下,0级和4级的发生率在后期周期减少了。-对个体不确定性的量化有助于减少结果的变异性;在RL指导下,与标准和DA指导相比,0级和4级中性粒细胞减少的发生率有所降低;在MAP中,4级中性粒细胞减少的发生率在周期内有所增加。4级中性粒细胞减少症在周期内增加;DA-RL指导下的用药与DA指导下的用药结果相似。
这些结果表明,考虑到不确定性的DA指导法和DA-RL指导法能将底线浓度保持在目标范围内并减少变异性;而其他方法则没有显示出这些趋势。
对RL中长期预期收益的调查
这项评估调查了RL中的长期预期收益,并旨在确定相关的协变量:它调查了RL中的行为价值函数--目标函数,看看是否有可能确定与剂量个体化有关的协变量。
评估结果(如下)显示了RL指导下的剂量的估计作用值函数,按协变量、性别、年龄和基线中性粒细胞计数-ANC0-分层,用于第一周期的剂量选择。结果显示,由于曲线的陡峭程度--剂量选择的稳健性--以及为了比较,PK指导算法中第一个周期的剂量,ANC0是治疗开始时的一个重要特征。选择只利用性别和年龄。
此外,第一个周期的中性粒细胞减少的等级-g1-对第二个剂量的选择影响最大;另一方面,ANC0越大,最佳剂量越高。
考虑因素
在这项研究中,我们提出了三种使用DA和/或RL的方法来推导出考虑到MIPD中具有不确定性的个人特征的用药策略。
具体来说,引入了行动派生的奖励--对高剂量的惩罚,在中性粒细胞引导的剂量情况下,同时考虑了毒性和疗效--与中位生存期有关。剂量还包括主要疗效以外的副作用--如周围神经病变、肿瘤反应、长期结果--如总生存期或无进展生存期,以及其他伴随药物--如抗癌药物组合。-等等。在这种情况下,RL允许在研究中包括多种副作用/有益效果和药物,并且适合考虑时间延迟和具有不确定性的病人特征。
我们还新使用了蒙特卡洛决策树--MCTS--用于强化学习以推导政策。以前在医学领域的研究大多使用简单的搜索算法,采用epsilon-greedy搜索策略,即使用查找表的第一步近似;在本研究中,我们使用MCTS与上MCTS与应用于树的置信度上限--UCT--来评估回报;这避免了分解的问题-贝尔曼方程 -不再需要Q-learning等算法所要求的近似值,从而降低了计算的复杂性。此外,UCT搜索可以通过对药物剂量范围的系统抽样,包括额外的信息--如个别病人的不确定性和先前的信息。这些特点使得在进行基于真实病人数据的分析时,可以考虑到潜在的模型偏差:例如,如果病人不遵循剂量建议--非政策性学习--系统可以在不交换病人数据的情况下学习。这也使得在诊所中实施该系统成为可能。
因此,建议的方法允许
(1) 提高临床试验的成功率
(2) 通过放宽排他性标准来促进招聘;以及
(3) 在批准后能够继续学习,并长期改善治疗效果;以及
我们相信,这一点是可以实现的。
另一方面,有三个主要挑战:RL处理的复杂性;与临床实践的差异;以及DA指导下的处理能力。第一个挑战是,复杂的模型,特别是RL决策树,对于代理人来说,可能很难学会导航和记忆。因此,有必要开发软件和仪表盘--如英夫利西单抗--在考虑临床实践时可以方便地使用。第二个挑战是,我们只研究了紫杉醇--一种抗癌药物--的剂量,而没有考虑辍学、非血液学毒性引起的剂量减少、依从性和合并症;因此,4级中性粒细胞减少症的发生率是模拟的。中性粒细胞减少症的发生率在模拟和临床试验中可能有所不同。解决这些挑战的可能办法是在临床环境中运行模拟,或运行一个考虑到上述因素的额外模拟。第三,可以预计DA指导需要大量的计算时间和努力来收敛;因此,如果时间或计算能力有限,可能需要使用近似值--例如求解下一个周期的剂量而不是所有剩余周期的剂量。例如,可能需要解决下一个周期的剂量,而不是所有剩余周期的剂量。
与本文相关的类别