パンデミックの緊急事態に対応せよ！医療物資の最適配置を強化学習で提案！

medical 2022年02月01日

3つの要点
✔️ 医療物資—特に医療機器—に対する需要に対して、適切な配置をおこなう必要がある
✔️ 医療物資の配置—医療機器をどのように配置すべきか—に関する最適な方針の導出を目指
✔️ その他のアルゴリズムより、高い性能を示唆

On collaborative reinforcement learning to optimize the redistribution of critical medical supplies throughout the COVID-19 pandemic
written by Bryan P Bednarski, Akash Deep Singh, William M Jones
(Submitted on 9 Dec 2020)
Comments: J Am Med Inform Assoc.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

パンデミックの被害を最小限にするような医療物資の配置は実現できるか？

本研究は、COVID-19をはじめとする、パンデミックに対する対応を強化するために、強化学習と深層学習モデルを活用し、医療機器に対する最適な再配置を導出するアルゴリズムの開発をおこなうことを目指しています。

2019年に発生したコロナウイルス感染症2019—COVID-19—のパンデミックにより、医療物資の不足に直面した国々にて、適切な医療を提供することが難しいといった事例が報告されています。こうした医療物資の不足を解消する解決策の一種として、医療機器に対する再配置の手法に注目が集まっています：例えば、北イタリアでは、医師が機器を配給し、どの患者を救うかを決定する事例があります；また、米国では、物資分配を目的とした、統一システムがないため、電話やプレスリリースなど、初歩的な方法で救援をおこなったことが報告されています。このようにパンデミックに対する医療物資の配置に対する必要性が言及される一方、最適な配置について検討した報告は少なく、方針の決定手法については不透明です—今回のパンデミックのような緊急事態において、適切な医療を提供するために、こうした不透明性を解消する必要があります。

本研究では、上記のような公衆衛生上の緊急事態において、より最適な資源を共有できる手法を開発を目指しています：具体的には、データセットに対する前処理をおこなった後、それらをニューラルネットワーク推論モデル—LSTM—に入力として活用し，各地域の人工呼吸器に対する将来的な需要を予測します。また、こうして導出された需要に基づき、強化学習—VI、Q-learning—を活用することで、個々の事例に対して医療物資の最適な配置を導出し、緊急事態における適切な医療体制を実現することを目指しています。

強化学習とは？

本章では、医療物資の再配分について活用している、強化学習を概説します。

強化学習—reinforcement learning: RL—は、機械学習の一種であり、エージェント、および、環境、の二つの要因を用いて学習します：エージェントが行動、また、行動に対する環境からのフィードバック—報酬—を通して、報酬を最大化するための行動モデル—方策—を導出します。RLの主な特徴として、データセットへの依存性が低い点が挙げられます：RLでは、環境からのフィードバックに基づき、エージェントが収集した経験から学習をおこないます—そのため、教師なし・教師あり学習とは異なり、静的なデータセットを必要としません。これにより、学習前のデータ収集や前処理、ラベル付けが不要となります。

一般的な強化学習のワークフローは下記の通りです

環境の作成：まず、エージェントが動作する環境—エージェントと環境のインターフェイスなど—を定義します。環境には、安全性・実験可能性の点から、シミュレーションを導入するケースが多いです。
報酬の定義：目標を達成するための報酬の定義、および、報酬の計算方法を定めます。
報酬は、エージェントが行動を選択するための指針となります。
エージェントの作成：エージェントを作成します—エージェントは、方策と強化学習の学習アルゴリズムで構成されます。具体的には、
a) 方策の表現方法の選択—ニューラルネットワーク、ルックアップテーブルなど

b) 適切な学習アルゴリズムの選択：ニューラルネットワークが大規模な状態や行動空間における学習に適しているため、多くのケースではニューラルネットワークを使用します。
エージェントの学習と検証：学習における条件—停止条件など—を設定し、エージェントの学習を行います。学習終了後、エージェントが導出した、学習済みの方策を検証します：報酬信号や方策などの設計を再検討し、学習を実行します。RLは、サンプル効率が低く—特にモデルフリーかつオンポリシーのアルゴリズムにて—、学習に数分から数日が必要となることもあります；そのため、複数の CPU や GPU、コンピュータークラスター上で学習を並列化させます。
方策の展開：学習済みの方策に対して調査をおこないます。結果によっては、ワークフローの初期段階に戻るケースもあります。具体的には、学習プロセス、および、方策の導出が、計算時間内に収束しない場合、再学習前に下記の項目に対する更新が必要でし：学習設定；強化学習アルゴリズムの構成；方策表現；報酬信号の定義；行動信号および観測信号；環境のダイナミクス。

研究目的

本研究では、COVID-19のパンデミックをはじめとする、公衆衛生上の危機に直面した際、医療物資を最適な形で配置することで、より質の高い医療を提供することを目的として、再配分アルゴリズムの提案を目指しています：具体的には、データセットに対する前処理をおこない、ニューラルネットワーク推論モデル—LSTM—を導入し、各州の人工呼吸器における将来的な需要を予測します—これらの予測に基づき、5 つの再分配アルゴリズム—3つのヒューリスティックなアルゴリズムと、2つの強化学習アルゴリズム—を活用し、5、20、35、50の参加状態における平均性能で、性能比較をおこないます。その結果，q-learningをに基づく再分配アルゴリズムが，もっとも高い性能を達成—医療物資における不足を最も高く削減—したことを報告しています。さらに、予測性能、および、信頼性は、参加する州数の増加に伴い、向上することが見込まれ、より高い実用性があることを示唆しています。

手法

この章では、医療物資の再配置をおこなう提案手法について述べます。

システム概要

ここでは提案手法の全体像について述べます。

本提案手法（下図）は、3段階のパイプラインで構成されています：入力データの前処理；ディープラーニングによる推論モデルで将来の需要を予測；事前に選択された再配分アルゴリズムによる需要予測の解釈、行動の決定。第2段階と第3段階目は、各日ごとに、独立して最適化されます。

このシステムでは、学習期間中に蓄積された人工呼吸器不足の合計を最小化することを目的として、最適化をおこないます—呼吸器の不足は、人工呼吸器の供給量が需要より少ない州において、発生します。入力は、シミュレーションの実行日と，選択されるランダムな州の数としています。

データの前処理とインピュテーション

ここではデータの前処理について、述べます。

データセットの前処理では，疾病の指標として、COVID-19 追跡プログラム—ワシントン大学健康指標評価研究所から引用—を用いています。また、COVID-19 検査の実施数における地域差から生じるバイアスを克服するために，隔週で行われる疾病管理予防センターの平均を上回る死亡を指標に加えています．さらに、様々な併存疾患—心臓病、喘息、慢性閉塞性肺疾患、糖尿病—に対する州別の割合の固定値を含め、これらの疾患の状況も考慮しています。

統計処理における仮定

ここでは統計処理をおこなうための前提条件について述べます。

システムに対するロバスト性を高めるため、2つの仮定を定めています：人工呼吸器の数；ダウンタイム—遅延—。一つ目では、州ごとに利用できる人工呼吸器をCOVID-19 集中治療室のベッド数と同等、としています。病院内の人工呼吸器を州ごとに追跡・報告するシステムは現状、存在しないため、シミュレーションにおいて、代理変数を使用する必要があります；一方，先行研究にて，パンデミック初期でICU 患者の約半数が人工呼吸を必要としていたことが示されており、この規模以上の医療物資として、ICU ベッドのデータを人工呼吸器の代理変数として仮定しています。二つ目は，再分配された人工呼吸器のロジスティクスダウンタイム—遅延—です。発生した遅延は，ガウス分布からランダムにサンプリングされ（平均 3 ± 0.5 日），2 日（全体の約 16%），3 日（約 68%），または 4 日（約 16%）に丸めて設定されます。この分布では、緊急備蓄された人工呼吸器が24時間から36時間で全国に行き渡るという保健福祉省の報告に基づいて、下限を設定しています。

需要の推計

この章では、パイプラインの第2ステージにおける、需要の推定について述べます。

この段階では、平均的な再配布の遅延間隔にもとづき、将来の人工呼吸器の需要を予測します：先行研究から、地域COVID-19のピークにおいて時系列生のある反復が報告されているため、需要モデルとして、RNN—Recurrent Neural Network—の一種である、LSTMを用いて予測をおこなっています—非季節的、多変量、時系列予測を考慮しています。また、過去のパンデミックからトレーニングする目的で、少量データでLSTMを事前学習し、観測データを用いて毎日学習をおこないます。一次シミュレーションは、2020年3月1日から8月1日まで実施され、26日分の処理済み観測値をLSTMの前訓練に使用します。LSTMはこのデータをもとに、連続した14日分の需要を予測します—再分配アルゴリズムにて最適な行動間隔を実現するため、予測間隔は平均物流遅延に設定されます。　

再分配アルゴリズム

本章では、３段階目のステップ—再分配アルゴリズム—について述べます。

この段階では、医療機器の最適な再分配を目的として、行動の決定をおこないます。ここでは、3つのアルゴリズム—最大ニーズ優先，最小ニーズ優先，ランダムな順序—、及び、強化学習の2つ—Value Iteration: VI、q-learning—を用いて、人工呼吸器の交換を実施しないベースライン—初期供給で開始し，初期供給で終了—と比較します。強化学習を使用しない、3つのアプローチ—最大ニーズ優先，最小ニーズ優先，ランダムな順序—では，予測される需要に基づき、余剰な人工呼吸器を各州に割り当てます。また、2つのRLアルゴリズム—VI、q-learning—では、エージェントと環境の相互作用によって、最適な割り当てをおこないます。これらの2つのアプローチの違いは、下記の通りです：q-learningではルックアップテーブル—事前定義され、継続的に更新されるテーブル—に基づき、行動を評価します；VIでは、収束までの全行動を再帰的に探索し、全シナリオで最も価値の高い行動に関するマップを提示し、最適な行動を導出します。q-learningによる人工呼吸器の再分配では、予期せぬ需要急増に対して、状態の供給をバッファリングすることで不足を回避しています（下図）。

結果

このセクションでは、本研究でおこなった評価結果について述べます。評価では、5つのアルゴリズム—需要に応じた3つのアルゴリズムと、強化学習を活用した２つのアルゴリズム—を適用した場合、および、初期状態を維持した場合における、医療物資の不足削減性能を比較し、性能の評価をおこなっています。

評価環境

この章では、評価をおこなった環境について述べます。

評価として、医療物資に対する需要予測の導出を目的とした時系列解析モデル—Long-short term memory: LSTM—、および、強化学習を活用した再分配アルゴリズムを採用しています：具体的には、LSTM推論モデルによる最良の需要予測に基づき、5、20、35、50の状態をランダム選択し、各アルゴリズムの性能を比較しています：医療物資に対する不足の削減について、アルゴリズムを適用した場合と、何もしなかった場合—各州はシミュレーションの間，初期の供給を維持する—を比較します。最適化に関する評価では、観測した医療物資の不足量と、理想とされる人工呼吸器の状態—他の場所で不足が発生し，遅延が発生しない場合，過剰な場所がない状態—の不足量を比較します。また、バイアスを除くため、3標準偏差—SD—以外の外れ値を除外し，最も代表的な指標のみを評価対象とします。シミュレーションが実行不可能となるのは下記のケースです：何もしない場合に不足が生じない；再配分アルゴリズムを適用している間に不足が観測されない場合。

評価結果

この章では、実際の評価結果について、述べます。

上述した評価環境における結果（下図）から、q-learningでは、20，35，50 の州が参加したときに，不足の削減と最適化の両方で最も高い性能となりました；一方、5状態では，q-learningがAllocate Maximum Fir—最大ニーズに調整する手法—より、不足削減についての性能が低いことがわかります。

q-learningでは、参加するランダムな状態数の増加に伴い、平均性能の増加、標準偏差の減少、が示唆されています：5状態の78.74±30.84%から50状態の93.46±0.31%まで向上しています：q-learningは一貫して93.33%から95.56%の平均最適性を示し、ランダム参加状態数の増加とともにSDが小さくなることが示されています（下表）。

考察

本研究は、COVID-19をはじめとする、緊急事態において、最適な医療物資の配置を導出するアルゴリズムの開発を目指しています。医療物資の最適な配置をおこなうことで、緊急事態において医療物資の不足を解消することで、より多くの人々に適切な医療措置を提供することが可能となります。本研究は、こうした医療物資の不足の解消を目的として、強化学習を活用し、最適な医療物資の導出手法を提案しています。評価では、5、20、35、50の状態をランダムに選択するシミュレーションにもとづき、再配分アルゴリズムの性能を比較しています。評価結果から、強化学習を用いた再分配アルゴリズムでは、93%から95%の範囲で医療物資に関する不足状態の解消を示しました。また、配分性能は、参加するランダムな状態数の増加に応じて向上し、5状態のシミュレーションで78.74 ± 30.8%、50状態のシミュレーションで93.50 ± 0.003%の不足削減の効果を確認しています。システム性能は参加州数に応じて向上し、参加州数が少ない場合に顕著になりました—ベースラインは5状態でピークを示し、複雑さの増大に応じて劣化した一方、q-learningではこれらが改善されています。

q-learningの状態数が少ない場合の不足量削減における高い標準偏差の要因として、大きい状態数における需要に対して、小さい状態の供給では満たされないこと、が考えられます；そのため、参加する州数の増加に伴い、こうしたケースが減少し、それに伴いSDも減少すると考えられます。この結果から、q-learningが常に最適に近い行動を選択できることが示唆されます。加えて、今回のパンデミックにおける収集データをトレーニングに使用することで、更なる性能向上が見込めます。これらの知見から、強化学習が将来の公衆衛生上の資源配分を最適に近い形で実現できる、と予想されます。

本研究の課題として、q-learning以外の強化学習—Value Iteration：VI—における性能の低さが挙げられます：不足の削減では、5から50の状態で73.42±31.59%から23.40±7.72%に低下していました。VIでは、イテレーションごとに現在のポリシーに基づいた、ポリシーの導出をおこなうため、状態ごとの需給からリアルタイムに学習を収束させる必要があります—その結果、収束閾値が上昇し、精度低下が発生したと想定されます。一方、q-learningアルゴリズム—モデルフリーの学習アルゴリズムの一種—では、qテーブルの値をのみを調整し学習することで、高い精度を保持しています。また、一般に、VIは計算コストが大きいため、q-learning を活用することで、より低コストで学習をおこなうことが可能になります。