強化学習を活用した、COVID-19の無症状感染者の特定モデルの提案！

強化学習 2022年03月16日

3つの要点
✔️ 無症状感染者を防ぐことができないため、課題となっている。
✔️ 強化学習システム—Eva—の設計と性能について報告している。
✔️ リアルタイムに無症状感染者を特定することで、政策立案の意思決定に有効であることが期待される。

Efficient and targeted COVID-19 border testing via reinforcement learning
written by Hamsa Bastani, Kimon Drakopoulos, Vishal Gupta, Ioannis Vlachogiannis, Christos Hadjicristodoulou, Pagona Lagiou, Gkikas Magiorkinis, Dimitrios Paraskevis, Sotirios Tsiodras
(Submitted on 22 Sep 2021)
Comments: Nature.

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

COVID-19の無症状感染者を防ぐことはできるのか？

本研究では、強化学習―Reinforcement learning: RL―を活用し、COVID-19の無症状感染者を、より高い精度で特定するシステムの開発を目指す。

近年発生した、SARS-CoV-2のパンデミックの抑制をおこなうため、多くの国で、不要不急の渡航が制限された。その後、制限解除において、下記の4つの戦略を組み合わせて渡航制限がおこなわれている：ホワイトリスト、無制限の渡航許可；グレーリスト、渡航者に到着前にPCRと逆転写による陰性検査の証明を提出；レッドリスト、渡航者に対する到着時の検疫；ブラックリスト、必要でない渡航の禁止。こうしたなか、どのリストに割り当てるかの判断は、国によって異なり、多くは、公開されている人口レベルの疫学的指標—人口当たりの患者数、人口当たりの死亡数、陽性率—に基づいている。しかし、これらの指標は、過少報告、症候性集団の偏り、報告の遅れなどの課題を持っており、不完全な指標であることが指摘されている。

こうした課題に対し、本研究では、旅客案内書に情報に基づき、強化学習を活用したシステム—Eva—を開発し、無症状患者を対象とした最適な予防システムを提案する。Evaは、COVID-19有病率のリアルタイム推定を活用し、無症状感染者を高い精度で推定することで、最適な国境政策を導出する。通常の制限プロトコルとは異なり、流入する旅行者の人口統計学的情報と過去の検査結果に基づき、限られた情報のみから割り当てをおこなうことができる。こうしたシステムにより、無症状で感染している旅行者を特定し，政策立案者にリアルタイムで情報を提供して下流の意思決定に役立てる、ことを目指す。

強化学習とは？

まず初めに、本研究の提案手法に活用される、強化学習を概説をする。

強化学習—reinforcement learning: RL—は、エージェント・環境、の二つの要因を用いた機械学習の一種である：エージェントが行動をおこない、その行動に対する環境からのフィードバック—報酬—を学習することで、報酬を最大化するための行動指針—方策—を導出する。主な特徴として、データセットへの依存性が低い点である：RLでは、環境からのフィードバックに基づき、エージェントが収集した経験から学習するため、教師なし・教師あり学習とは異なり、静的なデータセットを必要としない—つまり、学習前のデータ収集や前処理、ラベル付けが不要となる。

RLのワークフローは、一般に下記のようになる。

(1)環境の作成：エージェントが動作する環境—エージェントと環境のインターフェイスなど—を定める。安全性・実験可能性の点から、シミュレーションを導入することが多い。

(2)報酬の定義：目標に関する報酬の定義、および、報酬の計算方法を決める。報酬は、エージェントの行動選択の指針である。

(3)エージェントの作成：方策と強化学習の学習アルゴリズムで構成される、エージェントを定義する。具体的には、a.方策の表現方法の選択：ニューラルネットワーク、ルックアップテーブルなど。b.適切な学習アルゴリズムの選択：ニューラルネットワークが大規模な状態や行動空間における学習に適しているため、一般にニューラルネットワークを使用する。

(4)エージェントの学習と検証：学習における条件—停止条件など—を設定し、エージェントの学習をおこなう。学習終了後、エージェントが導出した方策を検証する：報酬信号や方策などの設計を再検討し、必要なら学習を再実行する。RLは、サンプル効率が低く—特にモデルフリーかつオンポリシーのアルゴリズムでは顕著である—、学習に数分から数日が必要となるケースもある；そのため、複数の CPU や GPU、クラスター上で学習を並列化させることが多い。

(5)方策の展開：学習済みの方策に対して調査をおこなう。この結果をもとに、ワークフローの初期段階に戻ることもある。具体的には、学習プロセス、および、方策の導出が、計算時間内に収束しない場合、再学習前に下記の項目に対する更新が必要となる：学習設定；強化学習アルゴリズムの構成；方策表現；報酬信号の定義；行動信号および観測信号；環境のダイナミクス。

SARS-CoV-2とは

この章では、解析対象である、SARS-CoV-2について概略を説明する。

SARS-CoV-2は、COVID-19を引き起こす病原体の名称で、2019年に中国武漢市で発見され、その後、全世界に感染拡大し、パンデミックを引き起こした。ウイルス感染後、4、5日後ほどで発現する—長ければ2週間たってから症状が出る—一方、無症状感染者も報告されている。主な症状として、次のようなものがある：発熱；咳；息苦しさ；体のだるさ；悪寒；筋肉痛；頭痛；喉の痛み；においや味がわからなくなる。高齢者や心臓病、糖尿病等の基礎疾患を持つ人では、重篤な肺炎を引き起こす可能性が高く、そのほかの世代も、呼吸器症状、高熱、下痢、味覚障害などが報告されている。幼少期への感染では、軽症もしくは不顕性である一方、ウイルス感染自体は発生しているため、無症状感染により高齢者への伝播も報告されている。遺伝子配列解析から、このウイルスは、コウモリ、センザンコウのコロナウイルスと類似する報告があり、これらが遺伝子組み換えを起こした可能性が指摘されている。2021年９月までに、世界で感染が確認された人は2億2千万人、死亡者は455万人であると報告されている。咳や飛沫を介してヒトからヒトへ感染し、主に空気感染により拡大する。現在、有効性の高いワクチンの開発により、感染防止が進められている。

研究目的

強化学習―Reinforcement learning: RL―を活用し、COVID-19の無症状感染者を、より高い精度で特定するシステムの開発を目指す。現在導入されている、制限解除の指針は、一般に、疫学的指標—人口当たりの患者数、人口当たりの死亡数、陽性率—に基づいているが、過少報告、症候性集団の偏り、報告の遅れなどの課題を持っており、不完全な指標であることが指摘されている。本研究では、こうした課題に対し、強化学習および個人情報を除いた、顧客情報を活用し、無症状感染者を推定することを目指す。具体的には、旅客情報をもとに、COVID-19の有病率をリアルタイムに推定し、制限解除方針に設定することで、無症状感染者をより高い精度で推定する指針を導出する。こうしたシステムにより、国際的に提案されている疫学的指標に基づいた国境管理政策よりも高い推定精度を持つことが示された。

手法

この章では、提案手法—Eva—について述べる。本手法は、COVID-19の無症状患者に対する、最適な予防方式を導出する。また、この提案は、2020年8月6日から11月1日まで、空港、陸路、海港を含むギリシャの全40箇所の入国地点に配備された（下図）。なお、本手法では、旅行者に対して、到着の24時間前までに、出発国、人口統計、入国地および日付などの情報を含む旅客案内書—Passenger locator form: PLF、1世帯につき1枚—に基づき解析をおこなっている。

旅行者タイプ別の有病率の推定

この章では、Eva における、有病率の推定手法について述べる。

Evaでは、過去に利用した旅行者の検査結果から、COVID-19有病率を推定する。有病率の推定は2つのステップからなる。

(1) 高次元統計からのLASSO回帰を利用し、人口統計学的特徴—国、地域、年齢、性別—に基づき、旅行者タイプの最小セットを適応的に抽出する。これらは、検査結果に基づき、週ごとに更新される。

(2) 経験ベイズ法—事前確率をそれまでの経験から導出—を用いて、各タイプの有病率を推定する。提案手法を導入した環境は，COVID-19の有病率が低く—1,000人に2人—、到着率は国によって大きく異なる；そのため、検査データは不均衡—検査対象者にCase が少ない—かつ、疎である—特定の国からの到着が少ない—ことになる。こうしたデータ特性に対し、経験的ベイズ法を用いて、逐次的に処理をおこない、適切な処理をおこなう。

検査の割り当て

この章では、有病率に基づいた、検査の割り当て手法について述べる。

上述した有病率推定値を活用し、Evaは到着時に、旅行者のタイプのみに基づき、PCR検査をおこなうべき旅行者のサブセットを導出する。こうした、検査の割り当てでは、2つの目的に対するトレードオフ—exploration-exploitation trade-off—を調整する形で実施される：具体的には、

(1) 現在の情報から、感染した無症候性旅行者の数を最大化する（Exploitation）

(2) 正確な推定値がない渡航者に対し、経験から検査を割り振り、その流行状況を正確に把握、更新する（Exploration）。

このトレードオフに対して、Greedyな割り当て—高い有病率を持つタイプに集中して検査を割り当てる—の場合、最も患者数の多い、中程度の有病率を持つタイプの検査データが抽出されないことになる。COVID-19の有病率は急増するケースもあるため、適切な学習をおこなうためにも、中程度の症状を可能な限り把握する必要がある—こうした課題は、RLにおける多腕バンディット問題—特に、非定常、文脈、遅延フィードバックと制約を持つバッチバンディット問題—として捉えられ、パイプラインテスト—結果が返されていないテスト—からの情報を考慮する必要がある。本研究では、こうしたexploration-exploitation trade-offを解決するため、Gittins指数を基にアルゴリズムを構築している：各タイプは、推定有病率と不確実性の両方を組み込んだ、リスクスコアを表す決定論的指数を導入し、この値に応じて割り当てをおこなう。

グレーリストの推奨

本セクションでは、感染リスクの高い国—グレーリスト—の捉え方について、述べる。

提案手法—Eva—の有病率推定値から導出された指針では、リスクの高い国をグレーリストに掲載するよう勧告している。PCR検査を義務付けにより入国者の有病率は低下する一方、検査費用などにより、不要な旅行が大幅に減少する、ことが推察される；したがって、Evaは、無症状感染者を低いレベルに保ちつつ、接触追跡チームでの負担軽減のため、必要な場合にのみ国をグレーリスト化する方針を導出する。従来こうしたグレーリスト化には、人による入力が必要であった—理論的には、グレーリストのカットオフを決定できる一方、意思決定者からの要望への対応は困難であった；そのため、グレーリストには、一定の柔軟性を持たせておき、人による入力にも対応する形を採用している。

ループの終了

この章では、提案手法の更新の終了について述べる。

検査の結果は、24～48時間以内に記録され、前のステップの有病率推定値を更新するために使用された。ピーク時—8月と9月—は、1日に41,830（±12,784）のPLFを処理し、到着した世帯の16.7%（±4.8%）が1日にテストされた。

結果

このセクションでは、本研究にておこなった性能評価について述べる：具体的には、無症状感染者に対するランダムサーベイランスとの比較；強化学習の性能評価；疫学的指標の検討

グレーリストの登録に対する評価

・無症状感染者に対するランダムサーベイランスとの比較

この章では、無症状感染者に対して、提案手法—Eva—とランダムサーベイランス—一般的な指針—の比較をおこなう。ランダムサーベイランスでは、情報インフラを必要としないため、頻繁に活用されるため比較対象として採用している。ここでは、inverse propensity weighting—IPW、無感染者が感染しない確率—に基づき、有病率の推定性能を評価した（下図）。観光シーズンのピーク時では、ランダムサーベイランス検査によって，Eva が特定した感染した旅行者の54.1%が特定された—つまり、ランダムサーベイランスでは、Evaと同じ効果を達成するために、各入国地で85%以上の検査が必要となる。一方、到着率が低下した10月には、ランダムサーベイランスの相対的なパフォーマンスが73.4%に改善された。

こうした性能の差は、検査リソースの相対的な希少性の変化によって説明することができる（下図）。入国者数の減少につれ、テストされる到着数の割合が増加し、検査する必要性が減少する—つまり、Evaは、十分な検査がおこなわれていない際に、効果的な指針を導出することが示唆される。

強化学習の性能評価

次に、本研究で導入した強化学習に関する性能について評価する。

ここでは、PLFを活用した集団レベルの疫学的指標に基づく政策（上述）とEvaの性能を比較する。Evaでは、空港での検査にかかるコストおよび到着の制約を考慮しつつ、IPWを活用し、人口あたりの症例数、人口あたりの死亡数、旅客の出身国の陽性率に比例した確率で旅客を検査する3つ方針を検討した（下図）。

観光シーズンのピーク時—8月と9月—には，Evaが特定した感染者は、IPWをベースとして、下記のようになった：症例ベース：69.0%（±9.4%）；死亡者ベース72.7%；陽性率ベース：79.7%—Eva は、より多くの感染者を特定していた。到着率が低下した時—10 月—では，下記のように改善された：症例ベース：91.5%（±11.7%）；死亡者ベース88.8%（±10.5%）；陽性率ベース：，87.1%（±10.4%）。この結果から、検査資源が不足しているほど、Evaの性能が向上していたことがわかる；実際，Evaの相対的な改善度は，ピークシーズンの後半—感染率が高く，検査リソースが不足している時期—に最大だった。

疫学的指標の検討

この章では、政策における疫学的な指標について検討する。

前述のように、既存の—疫学的指標に基づく—政策では、有病率に対する推定精度が低い一方、この指標を改善することも考えられる。この点について、推察される疫学的指標に対して、Evaとの比較をおこなっている：具体的には、ある国をハイリスク—有病率0.5％以上—、または、ローリスク—有病率0.5％未満—に分類するために、こうした疫学的指標がどの程度使用できるか、を評価した：この分類は、グレーリスト—またはブラックリスト—に掲載すべき国の選定、と同義である。Evaの推定値に基づき、各時点のラベルを計算し、次に14日間の時系列で得られた、一人当たりの患者数、死亡数、検査率、検査陽性率について、共変量の異なるサブセットに対して、gradient boosted machineを用いて学習させ、予測精度を調査した（下図）。

ここで、データを使用しないモデルは、受信者動作特性曲線下面積—AUC—が0.5となる;しこのことから、モデル1～4はAUCが0.5に近い値となっているため、無症候性旅行者における有病率の情報を取得していない、を示唆している。また、国レベルの固定効果を用いたモデル5では、推定精度の改善が確認された—これらの固定効果は、疫学データでは観察されない国特有の特異性—検査戦略、社会的距離の取り方、その他の非薬物的介入—をモデル化したものである。そのため、この結果から、観測されない要因が高リスクと低リスクの分類に対し、重要であることを示唆している。

グレーリスト登録の評価

この章では、グレーリストへの登録によって、感染がどの程度防止できるのか、について述べる。

提案モデルEvaによるCOVID-19の有病率の測定は、リスクの高い地域に対する検出に使用され、該当した国をグレーリストへ登録することで旅行プロトコルの調整をおこなった。Evaのグレーリストにより，6.7%（±1.2%）の感染者の入国を防ぐことができた、と報告している。

考察

本研究では、強化学習―Reinforcement learning: RL―を活用し、COVID-19における無症状感染者を、より高い精度で特定するシステムの開発を目指している。

SARS-CoV-2のパンデミックを抑えるため、多くの国で不要不急の渡航が制限された一方、導入された入国制限プロトコルにおける指標は、過少報告、症候性集団の偏り、報告の遅れなどの課題を持ち、不完全な指標であることが指摘されている。こうした課題に対し、本研究では、旅行者情報に基づき、強化学習を活用したシステム—Eva—の開発をおこない、無症状患者を対象とした最適な予防プロトコルを導出する。Evaは、強化学習を活用し、SARS-CoV-2の無症状感染者の流入を制限し、COVID-19有病率のリアルタイム推定をおこなう。評価結果として、現在導入されているサーベイランスや、プロトコルで活用されている疫学的指標の改善を含め、既存手法よりも高い予測精度を達成した。こうしたシステムにより、無症状感染者を特定し，リアルタイムで情報を提供して政策立案の意思決定に有効であることが期待される。

本研究における課題として、学習コストの大きさが考えられる。一般に、RLは、その他の手法と比較し、学習までにかかるコスト—データ量・学習時間—が膨大であり、特に今回のような、国レベルでのデータ解析になると、大量のデータを収集・処理する必要がある；そのため、モデルを改変のたびに設計をおこなうことになると、運用コストの肥大が発生する可能性が高い。Evaでは、タイプ抽出、推定、テスト割り当てを分離したモジュール方式で設計し、各タイプを組み替えることで、より高い性能を達成できるように設計されている。