赶上最新的AI论文

一个利用强化学习预防HIV感染的建议!

强化学习

三个要点
✔️人类免疫缺陷病毒(HIV)损害了身体的免疫功能,据报道,不仅在发展中国家,而且在发达国家也在上升。
✔️利用强化学习,我们旨在开发一种方法,在考虑到决策的时间流动性的情况下,推导出测试和治疗保留率的最佳模式。
✔️所得出的模式已被证明对护理费用的不确定性具有稳健性。另一方面,如果只考虑检测和护理保留率,2030年的EHE是不可能实现的,这表明需要其他额外的干预措施。

A reinforcement learning model to inform optimal decision paths for HIV elimination
written by Seyedeh N KhatamiChaitra Gopalappa
(Submitted on 6 Sep 2021)
Comments: 
Math Biosci Eng

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

背景介绍

我们能否了解最佳检测和护理的维持率,以尽量减少艾滋病毒的传播?

本研究旨在利用强化学习,根据人类免疫缺陷病毒(HIV)的结束艾滋病流行计划(EHE)的减少指标,得出检测和护理保留的最佳模式。这项研究旨在利用强化学习,根据结束艾滋病流行计划(EHE)的减少指标,得出检测和护理保留的最佳模式。

艾滋病病毒减少了保护身体免受疾病侵害的免疫细胞--T淋巴细胞和巨噬细胞的数量,削弱了免疫功能,并增加了其他疾病的严重性和发病率。在发达国家和发展中国家,艾滋病毒仍然是一个主要的公共卫生问题:在美国,2015年大约有120万艾滋病毒感染者(PWH)和3.8万新感染者。-结束艾滋病毒流行(EHE),美国国家战略计划,概述了诊断、治疗、预防和应对的四管齐下的战略,以减少约75%的新感染 - 到2025年9300例-到2030年,90%--3000例--。目前的建议是,高危人群每年至少接受一次检测,并立即开始治疗。然而,国家监测显示,实际检测频率低于建议频率,2015年,艾滋病毒人群的检测时间为3至5年。此外,只有48%被诊断为艾滋病毒的人实际接受了治疗,这表明护理的辍学率很高。

在这项研究中,我们旨在通过开发一个模型,利用强化学习来得出测试和护理保留率的最佳组合,从而降低HIV发病率。通过得出最佳检测率--检测频率的倒数--我们相信我们可以让感染者了解检测指南,并促进治疗的提供。最佳的护理保留率--在年初和年末接受护理的人的比例--表明缓解辍学率所需的社会服务和支持方案是有效的。本研究旨在利用这种强化学习来得出测试和护理保留率的最佳模式,并评估EHE策略的可行性。

什么是人类免疫缺陷病毒(HIV)?

首先,我们将讨论人类免疫缺陷病毒(HIV),它是本研究的主题。

艾滋病病毒减少了保护身体不受疾病影响的免疫细胞--T淋巴细胞和巨噬细胞的数量,削弱了免疫系统,增加了其他疾病的严重性和发病率。当免疫系统被削弱时,可能会感染在健康状态下不会造成问题的细菌和病毒--机会性感染--并发展出一系列通常不会发生的疾病。艾滋病(获得性免疫缺陷综合征)是指HIV感染者由于免疫力下降而出现并发症的一种情况。在感染的早期阶段可能会出现类似流感的症状,但由于身体的免疫反应,会在几周内消失。最初的症状持续2至4周,之后病人进入无症状期。在此期间,HIV每天繁殖约100亿个细胞,感染并杀死T淋巴细胞,损害免疫系统:在5-10年的时间里,健康T淋巴细胞的数量(700-1500)下降到不到200个,人变得免疫力低下。 2000年以来感染HIV后5年内的艾滋病案例情况很清楚。治疗这种类型的HIV的方法是抗逆转录病毒疗法(ART),它可以抑制HIV病毒在体内的复制,提高免疫功能,使免疫力再生。-2015年,世卫组织发布了《抗逆转录病毒治疗的启动和暴露于艾滋病毒之前的预防措施披露指南》,其中建议艾滋病毒感染者应及时开始抗逆转录病毒治疗。世卫组织已经发布了关于开始抗逆转录病毒治疗和在接触艾滋病毒之前披露预防措施的准则。

研究目标

这项研究旨在利用强化学习,根据EHE计划的减少指标,得出检查和保留护理的最佳模式。

诊断和治疗被认为是减少HIV的最有效的干预措施;因此,得出最佳的检测和护理保留率可以帮助制定有效的防止HIV感染的支持计划。在这项研究中,我们使用强化学习(RL)来评估一个基于随机和动态模型的动态决策序列,使用马尔科夫决策过程(MDP)。MDPs使我们能够评估决策中的时间动态变化,反映出流行病的时间动态变化,并提供一个感染模型,包括新感染。以前的现有研究都集中在病人层面的决策,包括最佳治疗方案,很少有关于人群感染的研究报告。此外,RL学习迭代的数量随着可操作选项的数量呈指数级增长,这带来了巨大的计算成本的挑战:因此,我们通过重新制定基于未被发现的比例和接受HIV治疗的比例的决策变量来减少选项的数量,从而减少计算负担。这样的模型将EHE目标作为随机动态环境下的顺序决策问题进行评估,并为未来的顺序目标提供有用信息。

方法

在这一节中,我们对所提出的方法进行了概述。

基于MDP,所提出的方法使用RL来推导出测试和保留率的最佳模式。在本节中,我们将分别讨论MDP和RL。

建立一个基于MDP的环境

在这一节中,我们描述了拟议方法中使用的基于MDP的模型。

MDP是决策问题的随机表述,这里我们概述一下它的表述环境。我们将时间𝑡的流行状态定义为多变量参数𝑋𝑡=[𝑝,𝜇𝑢,𝜇𝑎。𝜇𝐴𝑅𝑇; ∀] - 𝑝𝑖: 风险组𝑖的HIV感染者 - PWH - 除以𝜇𝑢𝑢:风险组𝑖的PWH,感染情况不明;𝜇𝑎:知道感染但未接受ART治疗;以及𝐴𝜇𝑅𝑇:知道自己被感染并正在接受抗逆转录病毒疗法的人的比例;∀:所有治疗阶段的护理。我们还设定𝜇𝑢+𝜇𝑎+𝜇𝐴𝑅𝑇 = 1。除此之外,干预决策𝐷𝑡=[𝛿,(1-𝜌);∀𝑖]-𝛿在时间𝑡:诊断率;1-。(𝜌)是风险组𝑖-的医疗停留率,MDP由以下四个元素定义。

(1) Ω

它指的是状态空间,即流行病所有可能状态的集合。我们使用基于异性恋者--异性恋者:HETs--和同性恋者--男男性行为者:MSM--的分类值。

(2) 𝐴

它是一个行动空间,是所有可能的决定--行动--的集合,可以采取。我们不采用诊断率(δ𝑖)和治疗持续率(1-𝜌𝑖)的组合,而是将抗逆转录病毒疗法不了解率和抗逆转录病毒疗法实施率的变化作为代理变量--这些代理变量限制了行动选择的数量,提高了学习的收敛率。

(3) 𝑃𝑎

它是行动𝑎下的单步过渡概率矩阵。𝑃𝑎(𝑥,𝑥)是流行病从𝑋𝑡=𝑥过渡到𝑋𝑡的概率。+1=当行动𝑎发生时,过渡到𝑥′的概率。在这里,为了减少计算的复杂性,我们模拟了行动和随机过渡,跟踪过渡目的地的状态,并估计出即时奖励。

(4) 𝑅𝑎

𝑅𝑎(𝑥,𝑥)是指当流行病处于状态𝑥并导致转移到状态 𝑎时的即时回报(总收益-总成本)。指的是,当你的收入达到一定水平时,你会立即得到回报(总收益-总成本)。奖励是对总人口的QALYs-质量调整生命年的衡量,乘以人均GDP-54,000美元,转化为货币价值,而成本是指艾滋病检测、护理和治疗的总人口成本。

在任何给定的时间𝑡的流行病只能由一个状态来代表,在时间𝑡+1时转入流行病状态𝑥的概率只取决于时间𝑡的流行病状态。假设。在这个时候,

𝑃𝑟{𝑋𝑡+1∣𝑋𝑡,𝑋𝑡-1,𝑋𝑡-2,...}=𝑃𝑟{𝑋𝑡+1∣𝑋t}这满足了MDP中的马尔科夫属性。

目标函数(如下)是最优决策--最优政策--的推导,使预期回报最大化;𝒅是最优行动--代理人的选择--从2016年到2070年的五年区间内的行动。-是显示的。在这里,决策是基于决策对当前纪元以及所有未来决策纪元的成本和影响。该方程也没有对未来的成本和收益进行折现--我们设定𝛾=1,以防止减少未来避免的感染和防止的成本的权重,并准确地确定将导致消除艾滋病毒的战略。

使用强化学习的拟议算法

在这一节中,我们描述了所提出的方法中使用的算法,它是基于RL-Q-学习--来得出最佳模式。RL包括:(1)一个评估政策(决策序列)的模拟模型,以及(1)评估政策(决策序列)的模拟模型,以及(2)控制评估政策选择的优化算法。RL是一种机会学习方法,利用(1)模拟模型来评估政策(决策序列)和(2)优化算法来控制评估政策的选择,从而得出最佳决策。

为了解决HIV的MDP模型,将考虑使用动态编程(DP),包括价值迭代和测量迭代,以及SARSA和Q-learning等算法。由于数据集的大小,我们将使用计算要求较低的Q-learning,而不是需要估计所有状态和行动的过渡概率矩阵的DP:Q-leaning是一种不需要过渡概率矩阵的先验知识就能得出接近最优解决方案的方法。Q-learning从环境中获取模拟行为的即时奖励,并在5年后过渡到流行状态。对于优化(如下),我们总结五年内每个行动的即时回报,观察之前行动的总回报,并选择下一步要采取的行动。这个迭代过程要重复多次,最终得出最优决策。此外,𝜖被设定为随着𝑘的增加而减少:最初有更多的行动探索,随着时间的推移,使用经验-探索-开发的交易--。掉了

此外,传播模拟使用了一个名为PATH 2.0的工具,该工具基于基于代理的随机模拟,对HIV感染者进行单独跟踪,可以模拟HIV疾病的发展和性传播:它模拟了美国的HIV疫情,准确模拟了2010年至2015年的HIV疫情。该模拟准确地模拟了2010年至2015年美国的艾滋病毒流行情况。基于这种环境,我们估计了诊断率和保留率:从干预方案数据中,我们得出了固定成本和可变成本,我们将其定义为外展人数的非线性函数模型。在Q-learning迭代中,我们从2015年到2070年每五年更新一次Q值:决定行动方案。我们在反馈和控制回路中运行模拟。这个过程不断重复,直到我们最终收敛于最优政策。

作为对Q-learning的评估,我们通过运行不同的迭代次数(2000、3000、4000、5000)并比较相应的总奖励,得出了最优策略的不确定性范围--我们研究了如果迭代次数不够多,算法可能会在收敛之前终止的可能性。我们研究了这样一种可能性:如果迭代次数不够多,算法可能在收敛之前就终止了。

不确定性分析

在这一节中,描述了三个成本函数,这些函数的设置考虑到了不确定性。

本节涉及两类不确定性:艾滋病毒传播的不确定性;以及干预成本的不确定性。在前者中,我们重现了艾滋病毒传播的不确定事件。具体来说,步骤如下

a) 从概率分布中计算输入参数,用概率函数模拟事件

b) 使用基于MDP的Q-learning

c) 研究2000至5000次的MDP迭代,模拟最优政策100次,得出输出指标的平均值

该程序被称为 "健康外展计划"。在后者中,使用了以下四种类型的成本:保健方案中每个诊所的固定成本;保健外展方案中每个人的可变成本;保健外展方案可变成本的边际增长;以及实验室外展方案可变成本的边际增长。我们使用以下三个成本函数,利用了以下三个成本函数。

(a) 中位数(检查和保留费用中位数):利用所有四个参数的中位数

(b) LTHR(低检测高保留护理费用),使用最低检测费用和最高医疗维持费用

(c) HTLR(高测试低保留护理成本):使用测试成本最低、保留护理成本最高的数值。

由此,对于每个成本函数假设,我们训练几个迭代--2000、3000、4000和5000--对于每一对成本函数和停止条件,我们运行100次模拟,以提取最佳政策的平均值和产生的相应影响。价值(超过100次迭代)被提取出来。

结果

在这一节中,我们讨论了评估的结果。该评估使用强化学习来推导出最佳的测试和保留率,以调查对EHE指标所提出的艾滋病毒的减少目标的影响。

评价环境

在这一节中,我们描述了评估发生的环境。

为了评估的目的,我们正在研究从2015年到2070年每隔五年的趋势。对于评估环境,我们设定如下:2015年底,高危异性恋者的年检测率为0.26,MSM-同性恋者为0.4;也就是说,异性恋者从感染到诊断的平均时间为3.8年,MSM为2.5年。异性恋者从感染到诊断的平均时间为3.8年,MSM为2.5年。从这个设定中,我们可以看到,异性恋者的年传播率为86%,MSM为91%。 

最佳政策--具体而言,从2016年到2070年的异性(和MSM)检测率(下图)和保留率(上图)的最佳组合,显示在时间序列中(下图)。

 

对于异性恋者(和MSM)的感知比例(顶部)和接受抗逆转录病毒疗法的比例(底部),三种成本函数假设的不确定性范围--中位数:蓝色带,LTHR:红色带,HTLR:绿色带--显示在阴影带中。-图中显示(如下)。

拟议的模型将高危异性恋者和MSM的检测率设定为0.2和0.3,相当于在2016年至2020年的三个成本函数中,每5年和3.5年分别进行一次检测(见上文)。以下政策也是由所提出的算法得出的:逐步将HET的年保留率从86%提高到94%,将MSM的年保留率从91%提高到96%。在此期间,我们看到所有三个成本函数的测试率和保留率的不确定性范围都变窄了--这一结果表明,拟议的算法在Q值上收敛。实现这些检测和保留护理率意味着,到2020年底,大约85%的异性恋艾滋病患者--艾滋病患者(PWH)和82%的MSM PWH--将意识到他们的感染,到2020年底,大约70%的异性恋PWH和预计到2020年底,约70%的异性感染者和70%的MSM感染者将接受抗逆转录病毒治疗。此外,在2016年至2020年期间,检测和保留护理的结合将使异性恋者的新感染人数减少50%--从2016年的9,000人减少到2020年底的4,500人,并使MSM的新感染人数减少42-从2016年的26,000人到2020年底的15,000人 -与过去五年的趋势相比,明显减少(见下图)。

异性恋的PWH显示出逐渐减少,而MSM的PWH显示出增加,表明PWH的数量在短时间内继续增加,然后减少(见下图)。

在此期间,艾滋病毒的年度成本增加了22%,这表明要实现上述新感染的减少,需要有很高的初始投资(见下图)。

从2021年到2025年,我们建议适度增加检测频率,并保持异性恋者和MSM的高保留率。他们还主张扩大 "关爱保留计划 "的规模,将异性恋者的年度保留率从94%提高到96%,将男男性行为者的保留率从96%提高到98%。异性恋者和MSM的新感染人数下降缓慢,而PWH的人数则有所下降:从2026年到2030年,对于异性恋者--在中位数和HTLR成本函数中,以及MSM--在所有成本函数中,检测率为0.1--每10年不到一次测试--并且在这一时期的其余时间里保持在这一水平。在异性恋者中,到2030年,新感染人数已降至约3200-4000人,到2070年降至750-1200人;在男男性行为者中,到2030年,新感染人数已降至约11000-14000人,到2070年降至3500-6000人。

考虑因素

这项研究调查并提出了一种旨在消除HIV的公共卫生流行病控制的决策方法:具体来说,我们优化了HIV感染者的数量,正如HIV消除-EHE指数中提出的那样。我们使用强化学习来优化测试和保留的人数--表述为MDP,并使用Q-learnin建模为一个顺序决策问题。评估结果显示,与使用预选情景的方法相比,所提出的方法从所提出的选项中做出了最佳选择--3611个选项--基于决策和流行病的概率预测。对成本和QALYs进行了评估,以得出测试和保留率的最佳组合。由于状态-行动空间的大小,这些决策模型的计算成本很高,而且难以收敛;我们通过引入间接措施和重新表述行动空间来解决这个问题,以减少行动空间的大小。这项研究提出了一个测试和治疗的案例,以减少该疾病的传播,并可能适用于其他传染病。

利用强化学习,他们认为最佳政策是在头10年更频繁地进行测试,然后随着新感染人数的减少而减少测试次数。具体来说,它建议在头10年内逐步将年吸收率提高到95%,然后通过吸收率维持计划来维持这一水平。该模型得出的政策旨在实现比测试率更高的保留率,表明应优先考虑保留率方面的支出。它对成本的不确定性也很稳健,在最佳政策的假设范围内--模型建议使用比中位数和HTLR成本函数更低的测试成本,并在较长时间内保持高测试率。

本研究的挑战如下。首先,拟议的方法将评估限制在目前可用的检测和治疗技术上:它排除了治愈的可能性以及检测和治疗费用的重大改进;因此,治愈的可用性可能会改变最佳决策。-由于减少了艾滋病毒的传播,实现根除艾滋病毒的时间/概率发生了变化,由于成本降低,与国内生产总值的权衡得到了改善。另一方面,模型的结果显示,即使在治疗费用较高的情况下,将资源分配给治疗而不是测试也有优势,这表明结果适用于治疗费用相对于测试费用减少的情况。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们