利用强化学习识别无症状的COVID-19感染者的建议模型!

强化学习 16/03/2022

三个要点
✔️ 无法预防无症状感染的病人构成了一个挑战。
✔️ 我们报告了一个强化学习系统的设计和性能--Eva。
✔️ 实时识别无症状的感染者，有望在政策制定决策中发挥有效作用。

Efficient and targeted COVID-19 border testing via reinforcement learning
written by Hamsa Bastani, Kimon Drakopoulos, Vishal Gupta, Ioannis Vlachogiannis, Christos Hadjicristodoulou, Pagona Lagiou, Gkikas Magiorkinis, Dimitrios Paraskevis, Sotirios Tsiodras
(Submitted on 22 Sep 2021)
Comments: Nature.

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

背景介绍

我们能否预防无症状的COVID-19病例？

在这项研究中，我们旨在开发一个系统，利用强化学习（RL）来识别COVID-19无症状感染者，并具有更高的准确性。

为了控制最近爆发的SARS-CoV-2大流行病，许多国家对非必要的旅行进行了限制。随后，采用四种策略的组合取消了旅行限制：白名单，不受限制的旅行授权；灰名单，旅行者必须在抵达前提供PCR和反转录测试的阴性证明；红名单，旅行者在抵达时被隔离；黑名单，没有旅行禁令。在这种情况下，决定指定哪个名单因国家而异，通常是基于已公布的人口级流行病学指标--每人口的病例数、每人口的死亡数、阳性率。然而，人们注意到，这些指标是不完整的，存在着诸如报告不足、对有症状人群的偏见和延迟报告等挑战。

为了应对这些挑战，我们根据乘客手册中的信息开发了一个强化学习系统--Eva，为无症状患者提出一个最佳的预防系统。Eva利用对COVID-19流行率的实时估计来高度准确地估计无症状病例，并推导出最佳边界政策。与正常的限制协议不同，它能够根据有关入境旅客的人口统计学和历史测试结果的有限信息进行分配。该系统旨在识别无症状和受感染的旅行者，并向政策制定者提供实时信息，以便进行下游决策。

什么是强化学习？

首先，我们将对强化学习进行概述，这在我们提出的方法中得到了应用。

强化学习（RL）是一种机器学习，使用两个因素：代理人和环境。通过学习代理人行动的回报，RL得出一个行动方案--策略--以使回报最大化。主要特点是它对数据集的依赖性较低：与无监督学习和监督学习不同，RL不需要静态的数据集，因为它根据环境的反馈从代理人收集的经验中学习--也就是说，它不需要在学习之前收集、预处理和标记数据。采集、预处理和标记是不需要的。

RL的工作流程一般如下。

(1)创建环境：定义代理运行的环境--包括代理和环境之间的界面。出于安全和实验可行性的考虑，通常会引入模拟。

(2) 奖励的定义：就目标和如何计算奖励进行定义。奖励是代理人选择行动的准则。

(3) 创建代理：我们定义代理，由措施和强化学习学习算法组成。特别是，一个。衡量标准的选择：神经网络、查询表等 B．选择适当的学习算法：一般使用神经网络，因为它们更适合在大的状态和行动空间中学习。

(4) 代理人训练和验证：设定学习的条件--例如停止条件--并训练代理人。训练结束后，我们验证代理人得出的措施：我们重新审视奖励信号、措施等的设计，必要时重新进行训练。RL的采样效率不高--特别是对于无模型和政策性算法--可能需要几分钟到几天的时间来训练；因此，训练通常是在多个CPU、GPU和集群上并行进行。

(5) 部署措施：对已经学到的措施进行调查。根据结果，我们可以返回到工作流程的初始阶段。具体来说，如果学习过程和措施的推导没有在计算时间内收敛，在重新训练之前需要更新以下项目：学习设置；强化学习算法的结构；措施表示；奖励信号的定义；行动和观察信号；环境的动态变化。

什么是SARS-CoV-2？

在本章中，我们将简要介绍SARS-CoV-2，它是我们分析的对象。

SARS-CoV-2是引起COVID-19的病原体的名称，该病原体于2019年在中国武汉被发现，随后在全球范围内传播，引起大流行。感染病毒后四到五天出现症状--最多两周后--而无症状的病例也有报道。主要症状是：发烧；咳嗽；呼吸困难；疲倦；发冷；肌肉酸痛；头痛；喉咙痛；嗅觉和味觉丧失。老年人和有心脏病或糖尿病等基础疾病的人更有可能患上严重的肺炎。其他几代人也报告了呼吸道症状、高烧、腹泻和失去味觉。儿童时期的感染是温和的或亚临床的，而病毒感染本身也会发生，有报道称无症状传播给老年人。到2021年9月，全世界有2.2亿个确诊病例，455万人死亡。截至2021年9月，全世界共报告了2.2亿例确诊病例和455万人死亡。它通过咳嗽和飞沫在人与人之间传播，主要通过空气传播。目前正在开发一种高度有效的疫苗以防止传播。

研究目标

利用强化学习（RL），我们旨在开发一个系统，以更高的精度识别COVID-19的无症状感染者。目前，解除管制的准则一般是基于流行病学指标--每个人口中的病人数量、每个人口中的死亡人数和阳性率--但已被证明是不完整的，存在着诸如报告不足、有症状的人口有偏见和报告延迟等挑战。有人指出，这是一个不完整的指标。在这项研究中，我们旨在通过使用强化学习和客户信息（不包括个人信息）来估计无症状的病例来解决这些问题。具体来说，基于乘客信息，我们实时估计COVID-19的流行率，并设定解除限制的政策，以得出更准确地估计无症状病例的准则。事实证明，这样的系统比国际上提出的基于流行病学指标的边境管制政策具有更高的估计准确性。

方法

在这一章中，我们描述了所提出的方法--Eva。该方法得出了无症状的COVID-19患者的最佳预防策略。从2020年8月6日至11月1日，该提案已在希腊所有40个入境点部署，包括机场、陆地和海洋港口（见下文）。该方法基于对旅客定位表（PLF）的分析，每户一张，其中包括旅客到达前至少24小时的出发国、人口统计、入境地和到达日期等信息。分析的基础是乘客定位表（PLF），每户一张，包含出发国的信息、人口统计学的资料

按旅行者类型估计的流行率

本章介绍了估计Eva流行率的方法。

伊娃根据过去使用过该服务的旅客的检测结果估计COVID-19的流行率。患病率的估计包括两个步骤

(1) 利用高维统计的LASSO回归，根据人口特征--国家、地区、年龄和性别，自适应地提取最小的旅行者类型集。这些都是根据测试结果每周更新的。

(2) 经验贝叶斯方法--从以前的经验中得出先验概率--被用来估计每种类型的流行率。实施拟议方法的环境中，COVID-19的发病率很低--2‰--而且各国的到达率差异很大；因此，测试数据是不平衡的--测试人群中的案例很少。- 且人数稀少--来自某些国家的入境者很少。这些数据特征将使用经验贝叶斯方法依次处理，以确保适当的处理。

测试的分配

本章介绍了一种根据流行率分配测试的方法。

利用上述的流行率估计，Eva得出了一个仅根据其类型就应该在到达时进行PCR检测的旅行者子集。这种测试的分配是以调和两个目标之间的权衡的方式进行的：探索-开发的权衡。

(1) 根据目前的信息，最大限度地增加受感染的无症状旅行者的数量（利用）。

(2) 根据经验，将测试分配给没有准确估计的旅行者，以准确评估和更新其流行率（探索）。

对于这种权衡，贪婪分配--集中测试高流行类型--将导致最高数量的中等流行类型的病人没有被抽样。由于COVID-19的患病率在某些情况下会迅速增加，因此有必要尽可能多地捕捉中等患病率的症状，以确保适当的学习--这一挑战可被视为RL中的多臂匪徒问题--特别是具有非平稳、上下文、延迟反馈和约束的批量匪徒问题。这些挑战被看作是RL中的多臂强盗问题--特别是在非平稳、上下文、延迟反馈和约束条件下--需要考虑来自管道测试--不返回结果的测试的信息。为了解决这种探索-开发的权衡，我们建立了一个基于吉廷斯指数的算法：每种类型都引入了一个代表风险分数的确定性指数，其中包含了估计的流行率和不确定性，并分配了任务。

灰色名单建议

在本节中，我们将介绍如何识别高危感染国家--灰色名单。

从拟议的方法--Eva--的流行率估计中得出的指导建议，高风险国家应被列入灰名单；虽然强制PCR检测会减少到达的流行率，但检测的费用会大大减少不必要的旅行；因此，Eva建议只有在必要时才将国家列入灰名单的政策，以减少接触追踪小组的负担，同时保持低水平的无症状病例。因此，Eva建议只有在必要时才将国家列入灰名单的政策，以减少接触者追踪小组的负担，同时将无症状病例的数量保持在较低水平。传统上，这种灰名单需要人为输入--理论上，可以确定灰名单的截止日期，但很难对决策者的要求作出回应；因此，我们采用了一种允许一定程度的灵活性和人为输入的灰名单形式。因此，灰名单的设计允许一定的灵活性，并适应人类的输入。

循环结束

在这一章中，我们描述了拟议方法的更新结束。

检测结果在24-48小时内被记录下来，并用于更新上一步的流行率估计。在高峰期--8月和9月--每天处理41,830（±12,784）份PLF，每天有16.7%（±4.8%）的到达家庭接受测试。

结果

在本节中，我们描述了我们在本研究中进行的性能评估：具体而言，与无症状患者的随机监测进行比较；评估强化学习的性能；检查流行病学指标。

对灰名单登记的评估

与无症状感染者随机监测的比较

在这一章中，我们将提出的方法--Eva--与随机监测--一般准则--无症状感染者进行比较。随机监视被用作比较，因为它不需要信息基础设施，而且经常被使用。在此，我们评估了基于反倾向性加权--IPW，即未感染者未被感染的概率--的流行率估计值的性能（见下图）。在旅游旺季，随机监测检测发现了54.1%被Eva识别的感染旅客--也就是说，随机监测需要在每个入境点进行85%以上的检测才能达到与Eva相同的效果。相反，在10月份，当到达率较低时，随机监测的相对性能提高到73.4%。

这些性能的差异可以用测试资源的相对稀缺性的变化来解释（见下图）。随着到达人数的减少，到达人数的测试比例增加，测试的需要也随之减少--表明在测试不足的情况下，Eva可以提供有效的指导。

强化学习的性能评估

接下来，我们评估本研究中引入的强化学习的性能。

在这里，我们将Eva的表现与基于人口水平流行病学指标的政策进行比较，该政策使用PLFs（见上文），使用IPWs对乘客进行检测，其概率与每个人口的病例数、每个人口的死亡数和乘客原籍国的阳性率成正比，同时考虑到机场检测的成本和抵达限制。我们考虑了三种政策进行测试（见下文）。

在旅游旺季--8月和9月，Eva根据IPW确定了以下感染者：病例数：69.0%（±9.4%）；死亡数：72.7%；阳性数：79.7%-Eva已经确定了更多的受感染病人。当到达率下降时--在10月份--其改善情况如下：病例基数：91.5%（±11.7%）；死亡基数：88.8%（±10.5%）；阳性率基数：，87.1%（±10.4%）。结果显示，检测资源越稀缺，Eva的性能越好；事实上，Eva的相对改进在高峰期的后半段最大--此时感染率更高，检测资源稀缺。

对流行病学指标的审查

在本章中，我们将研究政策中的流行病学指标。

如上所述，虽然现有政策--基于流行病学指标--对流行率的估计不太精确，但这些指标可以改进。在这方面，与Eva进行了一组可能的流行病学指标的比较：具体来说，将一个国家划分为高风险--流行率>0.5%--或低风险--流行率<0.5%。-我们评估了这些流行病学指标在多大程度上可用于将国家分为两类：这种分类与选择列入灰名单或黑名单的国家同义。我们计算了每个时间点的标签，然后调查了14天时间序列的预测准确率，包括患者人数、死亡人数、测试率和人均测试阳性率，使用梯度提升机对不同的协变量子集进行训练（见下文）。

这里，没有数据的模型的接受者操作特征曲线下的面积--AUC--为0.5；这表明模型1至4没有捕捉到无症状旅行者的患病率信息，因为AUC接近于0.5。这表明，使用国家一级固定效应的模型5也证实了估计值的准确性有所提高--这些固定效应是流行病学数据中没有观察到的特定国家的特质--测试策略、社会疏导和其他非药物干预措施- 被制成模型。因此，结果表明，未观察到的因素可能对高风险和低风险的分类很重要。

对灰名单登记的评估

在这一章中，我们讨论了灰色名单可以在多大程度上预防感染。

所提出的测量COVID-19流行率的Eva模型被用来检测高风险地区，并通过将受影响国家列入灰名单来调整旅行协议。6.7%（±1.2%）的感染者通过Eva灰名单被阻止入境。研究报告说，伊娃的灰名单阻止了6.7%（±1.2%）的受感染者进入该国。

考虑因素

在这项研究中，我们旨在利用强化学习（RL）开发一个识别无症状的COVID-19患者的系统，并具有更高的准确性。

虽然许多国家为了控制SARS-CoV-2大流行而限制了非必要的旅行，但有人指出，所采用的入境限制协议中的指标并不完整，存在着报告不足、对有症状的人群有偏见和迟报等问题。为了解决这些问题，我们开发了一个以旅行者为基础的强化学习系统--Eva，以推导出无症状患者的最佳预防方案。Eva将使用强化学习来限制无症状的SARS-CoV-2病例的涌入，并提供COVID-19流行率的实时估计。评估结果显示，该系统实现了比现有方法更高的预测精度，包括目前已实施的监测和协议中使用的改进的流行病学指标。希望这样一个系统能有效地识别无症状的感染者，并为决策提供实时信息。

这项研究的挑战之一是学习的高成本。一般来说，学习RL的成本要比其他方法高得多--数据量和学习时间--特别是在国家层面的数据分析中，需要收集和处理大量的数据；因此，如果每次修改模型都要重新设计，操作成本可能会很高。Eva的设计是模块化的，将类型提取、估计和测试分配分开，这样每个类型都可以重新组合以达到更高的性能。