赶上最新的AI论文

应对大流行的紧急情况!使用强化学习来优化医疗用品的部署!

医疗

三个要点
✔️ 需要适当分配医疗用品--特别是医疗设备--以满足需求
✔️ 旨在推导出医疗用品部署的最佳政策--医疗设备应如何部署
✔️ 建议比其他算法的性能更高

On collaborative reinforcement learning to optimize the redistribution of critical medical supplies throughout the COVID-19 pandemic
written by Bryan P BednarskiAkash Deep SinghWilliam M Jones
(Submitted on 9 Dec 2020)
Comments: J Am Med Inform Assoc.

Subjects: Computer Vision and Pattern Recognition (cs.CV)
 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

背景介绍

是否有可能以这样的方式部署医疗用品,以尽量减少大流行病造成的损害?

这项研究旨在开发算法,利用强化学习和深度学习模型得出医疗设备的最佳重新定位,以加强对COVID-19等大流行病的应对。

2019年冠状病毒大流行--COVID-19--导致面临医疗用品短缺的国家难以提供足够的医疗服务的报道。作为解决这些短缺问题的办法,医疗设备的重新分配正受到关注:例如,在意大利北部,医生们分发设备并决定拯救哪些病人;在美国,由于缺乏统一的物资分配系统,导致使用电话和新闻发布等简陋的方法。在美国,由于没有统一的物资分配系统,据报道,有一些基本的救济方法,如电话和新闻发布。因此,虽然提到了应对大流行病需要部署医疗用品,但很少有报告考虑到最佳部署,而且政策制定的方法也不明确--为了在这种大流行病这样的紧急情况下提供足够的医疗服务,这种不确定性需要解决。为了在像这种大流行病这样的紧急情况下提供足够的医疗服务,这些不确定因素需要得到解决。

这项研究旨在开发一种方法,以便在这种公共卫生紧急情况下进行更优化的资源共享:在对数据集进行预处理后,我们将其作为神经网络推理模型的输入--LSTM在对数据集进行预处理后,我们将其作为神经网络推理模型--LSTM的输入,以预测每个地区对呼吸机的未来需求。根据得出的需求,我们使用强化学习(VI)和Q-学习(Q-learning)来推导每个案例的医疗用品的最佳分配,旨在实现紧急情况下的适当医疗系统。

什么是强化学习?

本章概述了我们用于医疗用品再分配的强化学习。

强化学习(RL)是一种机器学习,它利用两个因素:代理人和环境来学习:代理人的行为和环境对该行为的反馈--奖励--来推导出一个行为模型--策略--以使奖励最大化。-RL的一个关键特征是它对数据集的依赖性较低:根据环境的反馈,代理人收集了RL的主要特点是它不依赖于数据集:它根据环境的反馈,从代理人收集的经验中学习--所以与无监督或监督学习不同,它不需要一个静态的数据集。这样就不需要在训练前进行数据收集、预处理和标记了。

一个典型的强化学习工作流程如下

  1. 创建环境:第一步是定义代理将在其中运行的环境--包括代理和环境之间的接口。在许多情况下,出于安全和实验可行性的考虑,模拟被引入到环境中。
  2. 奖励的定义:定义实现目标的奖励,以及如何计算奖励。
    奖励指导代理人选择他们的行动。
  3. 创建一个代理:创建一个代理 - 一个代理由措施和强化学习学习算法组成。特别是
    a) 选择一种表示措施的方式--神经网络、查询表等。

    b) 选择适当的学习算法:大多数情况下使用神经网络,因为它们更适合于在大的状态和行动空间中学习。
  4. 代理训练和验证:我们通过设置学习的条件--例如停止条件--来训练代理,然后验证代理得出的学习措施。训练结束后,对代理人得出的学习措施进行验证:对奖励信号、措施等的设计进行重新审查,并进行训练。RL的采样效率很低--特别是对于无模型和政策性算法--可能需要几分钟到几天的时间来训练;因此我们在多个CPU、GPU和计算机集群上进行并行训练。
  5. 措施的部署:我们调查了已经学会的措施。根据结果,我们可能会回到工作流程的起点。特别是,如果学习过程和措施的推导没有在计算时间内收敛,在重新训练之前需要更新以下项目:学习设置;强化学习算法的结构;措施表示;奖励信号的定义;行为和观察信号;环境的动态变化。

研究目标

在这项研究中,我们旨在提出重新分配算法,目的是在面对公共卫生危机(如COVID-19大流行)时,通过优化医疗用品的分配,提供更高质量的医疗服务:特别是,我们对数据集进行预处理,并且引入了一个神经网络推理模型--LSTM--来预测每个州对呼吸机的未来需求--基于这些预测,五个重新分配算法--三个基于这些预测,我们比较了五种重新分配算法的性能--三种启发式算法和两种强化学习算法--与5、20、35和50个参与国的平均性能。结果显示,基于q-learning的再分配算法实现了最佳性能--最高程度地减少了医疗用品的短缺。此外,预计预测性能和可靠性会随着参与国家数量的增加而提高,这表明该算法具有更大的效用。

方法

在这一章中,我们描述了我们建议的医疗用品重新部署的方法。

系统概述

本节对所提出的方法进行了概述。

建议的方法(如下图所示)包括一个三阶段的管道:输入数据的预处理;通过深度学习推理模型预测未来需求;通过预先选择的重新分配算法解释需求预测,并确定要采取的行动。第二和第三阶段是每天独立优化的。

该系统的优化目的是最大限度地减少研究期间累积的呼吸机短缺总量--呼吸机短缺发生在呼吸机供应少于需求的状态。输入是模拟运行的日期和要选择的随机数量的状态。

数据预处理和归纳

在本节中,我们将讨论数据的预处理。

在预处理数据集时,我们使用了COVID-19追踪程序--取自华盛顿大学卫生计量与评估研究所--作为疾病的指标。我们还增加了美国疾病控制和预防中心的双周高于平均水平的死亡人数作为指标,以克服因进行COVID-19测试的区域差异而产生的偏差。我们还包括各种合并症--心脏病、哮喘、慢性阻塞性肺病和糖尿病--的州特定比率的固定值,以说明这些疾病的状况。

统计处理中的假设

在本节中,我们将讨论统计处理的先决条件。

为了提高系统的稳健性,我们做了两个假设:呼吸机的数量;停机时间-延迟。第一个假设是每个州可用的呼吸机数量相当于COVID-19重症监护室的床位数量。目前还没有一个系统来跟踪和报告各州的医院呼吸机,所以我们需要在模拟中使用一个替代变量;然而,以前的研究表明,大约有一半的ICU病人在大流行的早期阶段需要通气,所以我们可以假设ICU中可用的呼吸机数量会大于这个数字。供应,我们假设ICU床位数据作为呼吸机的替代变量。第二是重新分配的呼吸机在后勤方面的停工期--延迟。发生的延误是从高斯分布中随机抽样(平均3±0.5天),并四舍五入到2天(约占总数的16%)、3天(约68%)或4天(约16%)。这个分布中的下限是基于卫生与公众服务部的报告,即全国范围内24至36小时内可获得紧急储备的呼吸机。

需求估计

本章讨论了管道第二阶段的需求估计。

在这个阶段,我们根据平均再分配延迟间隔来预测未来对呼吸机的需求:由于以前的研究报告了区域COVID-19高峰期的时间序列原始迭代,我们使用LSTM,一种RNN - 循环神经网络 - 作为需求模型。LSTM是RNN的一种类型--循环神经网络--用于预测--考虑非季节性、多变量和时间序列的预测。我们还在少量的数据上对LSTM进行预训练,对过去的大流行病进行训练,并每天对观测数据进行训练。主要模拟从2020年3月1日到8月1日,使用26天的处理过的观测数据对LSTM进行预训练,LSTM使用这些数据来预测连续14天的需求--通过重新分配算法来实现最佳行动间隔。LSTM使用这些数据来预测连续14天的需求--预测间隔被设定为平均物流延迟,以实现重新分配算法中的最佳行动间隔。

再分配算法

在本章中,我们将描述第三步--重新分配算法。

在这一阶段,决定采取行动,目的是优化医疗设备的再分配。我们使用三种算法--最大需求优先、最小需求优先和随机顺序,以及两种强化学习算法--价值迭代(VI)和q-learning。-与没有更换呼吸机的基线进行比较 -从初始供应开始,到初始供应结束。三种方法--最大需求优先、最小需求优先和随机顺序--在没有强化学习的情况下,根据预测的需求为每个状态分配多余的呼吸机。此外,两种RL算法--VI和q-learning--利用代理人和环境之间的互动来进行最佳分配。这两种方法的区别如下:Q-learning根据一个查找表--一个预定义的、不断更新的表--来评估行动;VI递归地探索所有行动,直到收敛,然后评估最有价值的行动。通过q-learning对呼吸机的重新分配,通过缓冲国家供应,避免了需求的意外激增(见下图)。

结果

在本节中,我们将介绍本研究中进行的评估结果。评估比较了五种算法--三种需求驱动算法和两种强化学习算法--在减少医疗用品短缺和保持初始状态方面的表现。我们将这些算法的性能与初始系统的性能进行比较。

评价环境

在这一章中,我们描述了评估发生的环境。

在评估中,我们采用了一个时间序列分析模型--长短期记忆(LSTM)--来得出医疗用品的需求预测,并采用强化学习的再分配算法:具体来说,LSTM推理我们比较了每种算法在减少医疗用品短缺方面的表现,应用该算法和不采取任何行动--在模拟过程中各州保持其初始供应--基于LSTM推理模型的最佳需求预测。保持最初的供应。对于优化方面的评估,我们将观察到的医疗用品短缺与理想的呼吸机状态下的短缺进行比较--在这种状态下,其他地方出现短缺,没有延误,也没有多余的位置。为了排除偏差,排除了三个标准差--SD以外的异常值,只对最具代表性的指标进行评估。在以下情况下,模拟变得不可行:不采取任何行动时没有发生短缺;在应用重新分配算法时没有观察到短缺。

评价结果

在本章中,我们将讨论实际评估的结果。

上述评估环境中的结果(见下文)显示,当20、35和50个国家参与时,q-learning在减少短缺和优化方面的表现最好;而在5个国家中,q-learning的表现比Allocate Maximum Fir方法--根据最大需求进行调整--在减少短缺方面表现较差。

q-learning表明,随着参与的随机状态数量的增加,平均性能增加,标准偏差减少:从5个状态的78.74±30.84%到50个状态的93.46±0.31%:q-learning始终显示93.33%到95.56%的平均最优性,随着随机参与状态数量的增加,SD也在减少(见下表)。

考虑因素

这项研究的目的是开发算法,以得出紧急情况下医疗用品的最佳分配,如COVID-19。通过优化医疗用品的分配,可以减少紧急情况下医疗用品的短缺,为更多的人提供适当的医疗服务。本研究提出了一种利用强化学习得出最优医疗用品的方法,以解决医疗用品的短缺问题。评估比较了基于随机选择5、20、35和50个状态的模拟的重新分配算法的性能。评估结果显示,使用强化学习的再分配算法在93%到95%的范围内消除了关于医疗用品的短缺状态。分配性能也随着参与的随机状态数量的增加而提高,证实了5个状态的模拟的短缺率为78.74±30.8%,50个状态的模拟的短缺率为93.50±0.003%。系统性能随着参与状态数量的增加而提高,当参与状态数量较少时,系统性能更加明显--基线在5个状态时达到峰值,并随着复杂性的增加而退化,而q-learning则改善了这些。

在少数国家的情况下,q-learning短缺减少的标准偏差很高,一个可能的原因是,大量国家的需求没有被少数国家的供应所满足;因此,随着参与国家数量的增加,这些情况可能会减少,SD也会相应减少。因此,随着参与国数量的增加,此类案件的数量将减少,SD也将随之减少。这一结果表明,q-learning总是一个接近最优的行动选择。此外,通过使用当前大流行期间收集的数据进行培训,可望进一步提高性能。这些发现表明,强化学习可以用来在未来实现接近最佳的公共卫生资源分配。

这项工作的挑战之一是非q-learning强化学习--价值迭代(VI)的表现不佳:在状态5到50的情况下,短缺率从73.42±31.59%减少到23.40±7.72%。由于VI在每次迭代时都会根据当前的政策推导出一个政策,它需要实时收敛每个状态下的供需学习--因此,收敛阈值增加,准确性下降。另一方面,q-learning算法--一种无模型的学习算法--仅通过调整q表的值就能保持高度的准确性。另外,由于VIs通常计算成本较高,Q-learning使得以较低的成本学习它们成为可能。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们