赶上最新的AI论文

没有集中数据管理的机器学习?联盟学习预测COVID-19感染者的氧气剂量!

联邦学习

三个要点
✔️ Federated Learning(FL)是一种机器学习的方法,同时对数据进行保密。
✔️ 在本文中,FL被用来估计COVID-19患者的氧气需求,而无需在多个医疗机构之间共享数据。
✔️ 实现了0.92的AUC,比在单一机构学习的平均AUC提高了16%。

Federated learning for predicting clinical outcomes in patients with COVID-19
written by Ittai Dayan, Holger R. Roth, Aoxiao Zhong, Ahmed Harouni, Amilcare Gentili, Anas Z. Abidin, Andrew Liu, Anthony Beardsworth Costa, Bradford J. Wood, Chien-Sung Tsai, Chih-Hung Wang, Chun-Nan Hsu, C. K. Lee, Peiying Ruan, Daguang Xu, Dufan Wu, Eddie Huang, Felipe Campos Kitamura, Griffin Lacey, Gustavo César de Antônio Corradi, Gustavo Nino, Hao-Hsin Shin, Hirofumi Obinata, Hui Ren, Jason C. Crane, Jesse Tetreault, Jiahui Guan, John W. Garrett, Joshua D. Kaggie, Jung Gil Park, Keith Dreyer, Krishna Juluru, Kristopher Kersten, Marcio Aloisio Bezerra Cavalcanti Rockenbach, Marius George Linguraru, Masoom A. Haider, Meena AbdelMaseeh, Nicola Rieke, Pablo F. Damasceno, Pedro Mario Cruz e Silva, Pochuan Wang, Sheng Xu, Shuichi Kawano, Sira Sriswasdi, Soo Young Park, Thomas M. Grist, Varun Buch, Watsamon Jantarabenjakul, Weichung Wang, Won Young Tak, Xiang Li, Xihong Lin, Young Joon Kwon, Abood Quraini, Andrew Feng, Andrew N. Priest, Baris Turkbey, Benjamin Glicksberg, Bernardo Bizzo, Byung Seok Kim, Carlos Tor-Díez, Chia-Cheng Lee, Chia-Jung Hsu, Chin Lin, Chiu-Ling Lai, Christopher P. Hess, Colin Compas, Deepeksha Bhatia, Eric K. Oermann, Evan Leibovitz, Hisashi Sasaki, Hitoshi Mori, Isaac Yang, Jae Ho Sohn, Krishna Nand Keshava Murthy, Li-Chen Fu, Matheus Ribeiro Furtado de Mendonça, Mike Fralick, Min Kyu Kang, Mohammad Adil, Natalie Gangai, Peerapon Vateekul, Pierre Elnajjar, Sarah Hickman, Sharmila Majumdar, Shelley L. McLeod, Sheridan Reed, Stefan Gräf, Stephanie Harmon, Tatsuya Kodama, Thanyawee Puthanakit, Tony Mazzulli, Vitor Lima de Lavor, Yothin Rakvongthai, Yu Rim Lee, Yuhong Wen, Fiona J. Gilbert, Mona G. Flores & Quanzheng Li 
(Submitted on 15 Sep 2021)
Comments: 
Nature Medicine

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

Federated Learning(FL)是一种用于使用多个来源的数据训练人工智能模型的技术,同时保持数据的匿名性。这消除了数据共享的许多障碍。例如,在医院之间共享医疗数据是不容易的,就像本文所说的。通过Federated Learning,机器学习模型可以在不收集单一实验室的病人数据的情况下进行训练(即不把信息发送到医院之外)。

在本文中,我们使用联盟学习来估计COVID-19患者未来的氧气剂量需求。因此,我们的AUC达到了0.92,比单一机构训练的模型的AUC提高了16%。这项研究表明,Federated Learning可以在不共享数据的情况下实现快速的数据科学合作。

主要内容

在COVID-19大流行期间,科学界、大学、医学界和数据科学界面临着合作研究中常见的数据所有权和隐私问题。然而,面对国际危机,研究人员走到了一起,迅速推动了开放和合作的方法,包括开放源码软件、数据存储库和匿名数据集的发布。

作者以前曾为SARS-COV-2开发过一个临床决策支持(CDS)模型。事实上,在其他论文中已经描述过,这种CDS模型可以用来预测COVID-19患者的结果。CDS模型的输入是胸部X射线、生命体征、人体测量数据和实验室测试,而输出是一个与给氧相关的分数,称为CORISK。

上述内容来自一篇参考论文(开发和验证临床风险评分以预测COVID-19住院患者的危重病症的发生)。引用。显示了一个输入表格。

许多人工智能模型,包括CDS模型,都被批评为过度学习和通用性差,因为医疗保健专业人士更喜欢用他们自己的数据验证的模型。因此,为了在尊重隐私的前提下解决这个问题,有必要对从多个医疗机构收集的各种数据进行训练,而不将数据集中化。

联盟式学习改善了数据跟踪,允许快速、集中协调的实验,同时评估算法的变化及其影响。在客户端-服务器方法中,这是Federated Learning的一种形式,未经训练的模型被发送到其他服务器(节点),在那里进行训练。然后,这些结果在一个中央服务器上被合并(联合),并反复进行,直到训练完成。只有模型的权重和梯度在客户端和服务器之间进行交流。

在这项研究中,使用Federated Learning方法对CSD模型进行了训练,并开发了一个名为EXAM的FL模型。

结果

EXAM是基于上述CDS模型。输入是一组20个特征,输出是病人入急诊科后24小时和72小时的氧气剂量。

上表详细列出了输入和输出数据。胸部X光图像、血液测试结果和氧饱和度都被列出。

输出量,即结果,是指24或72小时后的给氧量。在实践中,这些数字被分配给病人所接受的最密集的治疗。氧气治疗按强度分为:室内空气(RA)、低流量氧气(LFO)、高流量氧气(HFO)/无创通风(NIV)、机械通气(MV)。其数值分别为0、0.25、0.50和0.75。如果病人在72小时内死亡,则赋值为1。这就导致了五个地面真相的值(模型本身是回归,而不是分类,所以输出值是0到1)。

EXAM使用一个由34层组成的神经网络(ResNet34)从胸部X射线图像中提取特征,并将其他输入与深度和交叉网络整合在一起。输出是一个风险分数,称为EXAM分数,它是一个0~1的连续地。

联盟模式

EXAM是COVID-19的第一个Federated Learning模型,在16148个数据集上训练。这也是一个非常大的、多国的临床AI项目。

以上是参与本研究的国家。

上图比较了本地训练的模型和全球Federated Learning模型,使用了每个客户的测试数据。在所有的例子中,Federated Learning模型显示出更高的AUC,平均提高16%。

此外,如下图所示,联盟学习模型在通用性方面显示出38%的改进。

上图说明了一个联盟学习模型的可普遍性。例如,在一家医院的1000个病例上训练的模型,其平均AUC(相对于未用于训练的其他数据)比在多家机构的1000个病例上训练的联盟学习模型要低。特别是,只对次要案件进行训练的本地模型从Federated Learning中获益良多。这个局部模型对严重病例的预测更加准确。

上面的ROC图是本地模型和联盟学习之间比较的一个例子。在这个t≥0.5的中重度病例的图中,我们可以看到联盟学习模型中的真阳性率得到了极大的提高。其他例子见下文。

在任何情况下,联盟学习模型在通用性方面都比本地模型有明显的改善。

在独立的地点进行验证

在这项研究中,我们只在三个机构中验证了该模型。美国马萨诸塞州Cooley Dickinson医院(CDH)拥有最大的数据集,其验证结果显示如下。

上图显示了24小时后与预测的EXAM分数的对比结果。

上图显示了72小时后对照EXAM分数的结果。

例如,EXAM在预测该医院24小时内的MV治疗(或死亡)方面达到了0.950的灵敏度和0.882的特异性。

使用差异化的隐私

医疗机构使用Federated Learning的主要动机是为了保护数据的安全和隐私,并确保合规。然而,Federated Learning模式也存在着潜在的风险。在这项研究中,我们决定降低权重共享的比例,作为在服务器和客户端之间的通信被拦截时的风险缓解措施。结果显示,联盟学习模型在只有25%的权重更新共享的情况下也能有同样的表现。

讨论

这项研究导致了医疗领域所需的人工智能模型的快速和合作开发。其结果是模型比在每家医院的本地数据上训练出来的模型更加强大和准确。特别是,拥有相对较小数据集的客户从Federated Learning中获益良多。这意味着,参与Federated Learning的合作研究的好处是非常大的。

该研究还预测了氧气的可用性(风险),这一特点使其有别于迄今为止发表的200多篇预测诊断和死亡率的论文,而且它不需要将PCR数据作为输入送入模型,这使得该模型在现实世界的临床实践中很有用。

然而,由于数据并不集中,对它的访问是有限的。因此,对模型输出的分析是有限的。

另外,在大流行病的早期阶段,许多病人接受预防性的高流量氧气,这可能会使EXAM的预测出现偏差。

方法

伦理批准

所有程序都符合赫尔辛基宣言和良好临床实践指南。它们还得到了每个机构内伦理委员会的批准。

研究环境

本研究采用了20家机构的数据。该模型可在NVIDIA NGC上找到(可下载)。

数据收集

2019年12月至2020年9月,20家机构共准备了16148份数据。

患者纳入标准

患者参与的标准是:(1)患者到急诊科(或同等级别)就诊,(2)患者在出院前进行PCR检测,(3)患者进行胸部X光检查,(4)患者的数据至少包含之前列出的五个特征(均在急诊科获得)。这些是

模型输入

21个特征被用作模型的输入。输出是到达急诊科后24小时和72小时的氧气剂量。

考试模型开发

这个模型目前还没有被任何监管机构批准,只能用于研究目的。

FL详情

最常见的Federated Learning形式是由McMahan等人提出的联合平均算法。这种算法可以以客户机-服务器的方式实现,每家医院都充当一个院士。Federated Learning可以被认为是一种旨在通过减少每个客户的损失来尽量减少全球损失的方法。

每个客户都在本地学习,并与中央服务器分享模型权重的更新,中央服务器使用安全套接字层加密和通信协议汇总这些贡献。服务器在汇总后将更新的权重发送给写作客户端,每个客户端在本地恢复学习。这样反复多次,直到模型收敛。

在本地,历时数被设置为200,并使用Adam作为优化函数(Adam也在中央服务器上使用)。初始学习率为5×10-5,每40个 epochs减半。在训练过程中,对数据进行了加强,如旋转、平移、剪切、缩放和噪音。

数据可用性

参与本研究的20个机构的数据集由其各自机构控制。它不与任何其他参与机构或合作服务器共享,是私有的。

代码可用性

本研究中使用的所有代码和软件都可以在NGC获得。训练过的模型、数据准备指南、训练代码、模型验证代码、安装指南等也都可以在NGC获得。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们