【世界初】データの一元管理なしで機械学習？連合学習でCOVID-19感染者の酸素投与量予測！

Federated Learning 2021年12月07日

3つの要点
✔️ 連合学習（Federated Learning, FL）とは、データを秘匿しながら機械学習を行う手法
✔️ 本稿ではFLによって複数の医療機関でのデータ共有することなく、COVID-19患者の酸素必要量を推測
✔️ AUCは0.92を達成し、単一の医療機関で学習させるよりも16%も平均AUCを向上

Federated learning for predicting clinical outcomes in patients with COVID-19
written by Ittai Dayan, Holger R. Roth, Aoxiao Zhong, Ahmed Harouni, Amilcare Gentili, Anas Z. Abidin, Andrew Liu, Anthony Beardsworth Costa, Bradford J. Wood, Chien-Sung Tsai, Chih-Hung Wang, Chun-Nan Hsu, C. K. Lee, Peiying Ruan, Daguang Xu, Dufan Wu, Eddie Huang, Felipe Campos Kitamura, Griffin Lacey, Gustavo César de Antônio Corradi, Gustavo Nino, Hao-Hsin Shin, Hirofumi Obinata, Hui Ren, Jason C. Crane, Jesse Tetreault, Jiahui Guan, John W. Garrett, Joshua D. Kaggie, Jung Gil Park, Keith Dreyer, Krishna Juluru, Kristopher Kersten, Marcio Aloisio Bezerra Cavalcanti Rockenbach, Marius George Linguraru, Masoom A. Haider, Meena AbdelMaseeh, Nicola Rieke, Pablo F. Damasceno, Pedro Mario Cruz e Silva, Pochuan Wang, Sheng Xu, Shuichi Kawano, Sira Sriswasdi, Soo Young Park, Thomas M. Grist, Varun Buch, Watsamon Jantarabenjakul, Weichung Wang, Won Young Tak, Xiang Li, Xihong Lin, Young Joon Kwon, Abood Quraini, Andrew Feng, Andrew N. Priest, Baris Turkbey, Benjamin Glicksberg, Bernardo Bizzo, Byung Seok Kim, Carlos Tor-Díez, Chia-Cheng Lee, Chia-Jung Hsu, Chin Lin, Chiu-Ling Lai, Christopher P. Hess, Colin Compas, Deepeksha Bhatia, Eric K. Oermann, Evan Leibovitz, Hisashi Sasaki, Hitoshi Mori, Isaac Yang, Jae Ho Sohn, Krishna Nand Keshava Murthy, Li-Chen Fu, Matheus Ribeiro Furtado de Mendonça, Mike Fralick, Min Kyu Kang, Mohammad Adil, Natalie Gangai, Peerapon Vateekul, Pierre Elnajjar, Sarah Hickman, Sharmila Majumdar, Shelley L. McLeod, Sheridan Reed, Stefan Gräf, Stephanie Harmon, Tatsuya Kodama, Thanyawee Puthanakit, Tony Mazzulli, Vitor Lima de Lavor, Yothin Rakvongthai, Yu Rim Lee, Yuhong Wen, Fiona J. Gilbert, Mona G. Flores & Quanzheng Li
(Submitted on 15 Sep 2021)
Comments: Nature Medicine

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

Abstract

連合学習（Federated Learning, FL）は、データの匿名性を維持しながら、複数のソースからのデータを用いて人工知能モデルを学習するために用いられる手法です。これによりデータ共有に関する多くの障壁を取り除くことができます。例えば本稿のように、医療データを病院同士で共有することは簡単ではありません。連合学習では、患者データを1つの研究機関に集めることなく（つまり情報を病院外に出すことなく）、機械学習モデルを学習することができます。

本稿では、COVID-19患者の将来必要となる酸素投与量を連合学習によって推測しています。その結果、AUCは0.92を達成し、単一機関で学習させたモデルよりもAUCを16%向上させました。本研究により、連合学習はデータ共有のない迅速なデータサイエンスのコラボレーションが可能であることが明らかになりました。

Main

科学、大学、医療、データサイエンスのコミュニティは、COVID-19のパンデミックに際して、共同研究にありがちなデータの所有権やプライバシーの問題に直面しました。しかし研究者たちは、国際的な危機を前に一丸となり、オープンソースソフトウェア、データリポジトリ、匿名化データセットの公開など、オープンで協力的なアプローチを急速に推進してきました。

著者らは以前、SARS-COV-2の臨床意思決定支援（clinical decision support, CDS）モデルを開発していました。実は、このCDSモデルがCOVID-19患者の転帰の予測に転用可能であると他の論文で述べられています。なおCDSモデルの入力は、胸部エックス線画像、バイタルサイン、人工統計学的データ、臨床検査値で、出力はCORISKと呼ばれる酸素の投与量と相関するスコアです。

上記は、参考論文（Development and Validation of a Clinical Risk Score to Predict the Occurrence of Critical Illness in Hospitalized Patients With COVID-19）より引用。入力フォームが示されています。

医療従事者は自分たちのデータで検証されたモデルを好むため、このCDSモデル含む多くのAIモデルは、過学習や汎用性の低さについて指摘されてしまいます。そのため個人情報に配慮しつつこの問題を解決するためには、データを一元管理することなく複数の医療機関から集めた多様なデータを用いて学習する必要があります。

連合学習は、データの追跡性を向上させ、アルゴリズムの変更や影響を評価しながら、中央で調整された実験を迅速に行うことができます。連合学習の1つであるクライアント・サーバー方式では、未学習モデルを他のサーバー（ノード）に送り、ノードで学習が行われます。その結果を中央のサーバーで統合（連合）し、訓練を終了させるまで反復します。クライアントとサーバーの間ではモデルの重みや勾配のみが伝達されます。

本研究では、CSDモデルを連合学習のアプローチで学習させ、EXAMと名付けられたFLモデルが開発されました。

Results

EXAMは、前述のCDSモデルを基礎としています。入力は20個の特徴量で、出力は救急診療部への入院から24時間後、72時間後の患者の酸素投与量です。

上記の表は、入出力データの詳細です。胸部エックス線画像や血液検査の結果、酸素飽和度などが挙げられています。

出力であるOutcomeは、24時間あるいは72時間後の酸素投与量です。実際には、患者が受けた最も強い（intensiveな）治療に数字を割り振っています。酸素療法は弱い順に、室内空気（room air, RA）、低流量酸素（low-flow oxygen, LFO）、高流量酸素（high-flow oxygen, HFO）/ 非侵襲的換気（noninvasive ventilation, NIV）、機械的換気（machanical ventilation, MV）に分けられ、それぞれ値は0, 0.25, 0.50, 0.75です。なお72時間以内に患者が死亡した場合には、1を割り振ります。これによりGround Truthは5つの値になります（モデル自体は、分類ではなく回帰を行うので出力値は0~1になります）。

EXAMは、34層からなるニューラルネットワーク（ResNet34）を用いて胸部エックス線画像の特徴量抽出を行い、Deep & Cross ネットワークでその他の入力を統合しています。出力は、0~1の連続地であるEXAMスコアと呼ばれるリスクスコアです。

Federating the model

EXAMは、16,148件のデータを用いて学習されたCOVID-19に対する最初の連合学習モデルです。また臨床AIにおける非常に大規模かつ多国間のプロジェクトです。

上記は本研究に参加した国です。

上図は、各クライアントのテストデータを用いて、ローカルに学習したモデルとグローバルな連合学習モデルを比較です。すべての例で連合学習モデルが高いAUCを発揮しており、平均すると16%向上しています。

加えて、下図に示すように連合学習モデルでは、38%の汎化性の向上が見られました。

上図は、連合学習モデルの汎化性を示しています。例えば、1つの病院の1,000件のデータで学習したモデルは、複数機関から得た1,000件のデータで学習した連合学習モデルよりも平均AUC（学習に使っていない残りのデータに対する）が低いということです。特に軽症例のみで学習したローカルモデルは連合学習の恩恵を顕著に受けました。このローカルモデルは重症例に対する予測値がより正確になりました。

上図のROCプロットは、ローカルモデルと連合学習の比較の一例です。この t≥0.5 の中等度〜重度症例でのプロットでは、連合学習モデルで真陽性率が大きく向上していることがわかります。他の例も以下に示します。

いずれにしても連合学習モデルは汎化性がローカルモデルよりも大きく向上していることがわかります。

Validation at independet sites

本研究では、3つの施設でモデルの検証のみを行いました。中でも最大のデータセットを持つアメリカのマサチューセッツ州にあるクーリーディッキンソン病院（CDH）での検証結果を以下に示します。

上図は24時間後の予測EXAMスコアに対する結果です。

上図は72時間後のEXAMスコアに対する結果です。

例えば、当該病院における24時間後のMV治療（あるいは死亡）の予測ではEXAMの感度は0.950、特異度は0.882を達成した。

Use of differential privacy

医療機関が連合学習を使用する主な動機は、データのセキュリティとプライバシーを保護し、コンプライアンスを遵守するためです。しかしながら連合学習モデルでも潜在的なリスクはあります。本研究では、サーバーとクライアント間の通信が傍受された場合のリスク軽減措置として、重みの共有の割合を減らすことにしました。その結果、重みの更新を25%しか共有しなくても連合学習モデルは同等の性能を発揮できることが分かりました。

Discussion

本研究では医療分野で必要とされるAIモデルを迅速かつ共同で開発することに成功しました。その結果、各病院のローカルデータで学習するよりもロバストで正確なモデルを作成しています。特に比較的小さなデータセットしか持たないクライアントは、連合学習の恩恵を大きく受けています。これはつまり連合学習の共同研究に参加するメリットが大きいことを示しています。

また本研究は酸素供給量（リスク）を予測しており、これまで発表された診断や死亡率を予測する200以上の論文とは異なる特徴を備えています。PCRのデータを入力としてモデルに与える必要がないので、実際の臨床現場で役立つモデルとなっています。

ただしデータが一元化されていないため、データへのアクセスは制限されています。その結果、モデルの出力結果に対する解析には限界があります。

またパンデミックの初期には、多くの患者が予防的に高流量の酸素を投与されており、そのような場合はEXAMの予測に狂いが生じる可能性があります。

Method

Ethics approval

すべてのプロシジャはヘルシンキ宣言およびGood Clinical Practiceガイドラインに従っています。また各施設内の倫理委員会の承認を得ています。

Study setting

本研究では20機関のデータを用いました。モデルはNVIDIA NGCで公開されています（ダウンロード可）。

Data collection

2019年12月から2020年9月まで20機関から合計16,148件のデータが用意されました。

Patient inclusion criteria

患者の参加基準は、(1) 患者が救急外来（もしくはそれに相当する部署）に来院し、(2) 退院するまでにPCR検査していること、(3) 患者が胸部エックス線撮影をしていること、(4) 患者のデータに先に示した特徴量のうち最低5つが含まれている（すべて救急外来で取得）ことです。

Model input

21個の特徴量がモデルの入力として使用されました。出力は、救急外来に来てから24時間後と72時間後の酸素投与量です。

EXAM model development

本モデルは現時点でいかなる規制機関にも承認されておらず、研究目的のみで使用されるべきものです。

FL details

連合学習の最も一般的な形態は、McMahanらが提案案したFederated Averagingアルゴリズムです。このアルゴリズムは各病院がくアイアントとして機能するクライアント・サーバー方式で実現することができます。連合学習は、各クライアントの損失を削減することで大域的な損失を最小化することを目的とした手法と考えることができます。

各クライアントはローカルに学習し、モデルの重みの更新をセキュアソケットレイヤーの暗号化と通信プロトコルを用いて貢献度を集約する中央サーバーと共有します。サーバーは集計後に更新された重みを書くクライアントに送信し、各クライアントはローカルで学習を再開します。これをモデルが収束するまで何度も繰り返します。

ローカルではエポック数200とし、最適化関数はAdamが用いられています（Adamは中央サーバーでも使用）。初期の学習率は、5 x 10^-5で、40エポックごとに半分になります。また学習の際には、回転、平行移動、シアー、拡大縮小、ノイズなどのデータ拡張を施しました。