強化学習を用いて、HIV感染を予防する提案!
3つの要点
✔️ 身体の免疫機能を低下させるヒト免疫不全ウイルス—Human Immunodeficiency Virus:HIV—では、発展途上国のみならず、先進国でも増加傾向にあることが報告
✔️ 強化学習を活用し、意思決定の時間的流動性を考慮した、検査と治療継続率に関する最適なパターン導出手法の開発を目指す。
✔️ 導出されたパターンは、ケアコストにおける不確実性に対して頑健であったことが示されています。一方、検査とケア維持率のみ考慮した場合、2030年のEHEを達成できず、その他の追加的な介入の必要性が示唆
A reinforcement learning model to inform optimal decision paths for HIV elimination
written by
(Submitted on 6 Sep 2021)
Comments: Math Biosci Eng
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
背景
HIV感染を最小化するための、最適な検査・ケアの維持率把握できるのか?
本研究では、強化学習を活用し、ヒト免疫不全ウイルス—HIV—について策定された、HIV流行終結—Ending the HIV Epidemic :EHE—計画の削減指標をもとに、検査およびケア維持率に関する最適なパターンを導出することを目指しています。
HIVは、体を病気から守る免疫細胞—Tリンパ球、マクロファージ—を減少させ、免疫機能を弱体化、および、その他疾患の深刻化、また、罹患率を向上させます。HIVは発展途上国だけでなく、先進国における主要な公衆衛生問題として、現在も取り上げられています:米国では、2015年時点で約120万人のHIVの感染者—People with HIV: PWH—がおり、約3万8千人の新規感染者がいます。2019年のHIV流行終結—Ending the HIV Epidemic:EHE—米国国家戦略計画では、診断、治療、予防、対応の4つの戦略により、2025年までに新規感染を約75%—9300件—、2030年までに約90%—3000件—まで削減することを目指しています。現在では、高リスク集団に対して、最低年1回の検査と、即座の治療開始を推奨しています。しかし、国家サーベイランスにより、実際の検査頻度は、推奨頻度よりも低く、2015年は、HIV集団の検査頻度が3~5年であった、ことが報告されています。さらに、HIVと診断された人のうち、実際治療を受けた人は48%にとどまり、高いケア脱落率が示唆されます。
本研究では,強化学習を活用し、検査率とケア維持率の最適な組み合わせを導出するモデルを開発し,HIV発症率を削減することを目指しています。最適な検査率—検査頻度の逆数—を導出することで、感染者に対して検査ガイドラインを通知し、治療提供を促進することができる、と考えられます。また、最適なケア継続率—年初、および、年末にケアを受けた人の割合—から、ケア脱落率を緩和するため必要な社会サービスや支援プログラム有効である、と考えられます。本研究では、こうした強化学習を活用し、検査とケア維持率の最適なパターンを導出することで、EHE戦略の実現可能性に対する評価を目指しています。
ヒト免疫不全ウイルス(HIV)とは?
まず初めに、本研究の解析対象である、ヒト免疫不全ウイルス—Human Immunodeficiency Virus:HIV—について解説します。
HIVは、体を病気から守る免疫細胞—Tリンパ球やマクロファージ—を減少させ、免疫機能を弱体化、および、その他疾患の深刻化、罹患率の向上を発生させます。免疫機能が低下すると健康状態では問題の発生しない菌やウイルスに感染し—日和見感染—、通常では発生しないような様々な病気を発症します。エイズ—Acquired Immunodeficiency Syndrome :AIDS、後天性免疫不全症候群—は、HIV感染者が免疫低下により合併症を発症した状態をさします。感染初期にはインフルエンザ様症状がみられることもありますが、感染者の体内の免疫応答により数週間で消失します。初期症状まで2~4週間で、その後、無症候期に入ります。この間、HIVは、毎日約100億個増殖し、Tリンパ球に感染し死滅させ、免疫機能を低下させます:健康時には700〜1500個あるTリンパ球が、5〜10年かけて、200個未満になり免疫不全状態となります。2000年以降HIV感染から5年以内にエイズを発症するケース画像出しています。こうしたHIVに対する治療としては、抗レトロウイルス療法—antiretroviral therapy: ART—治療があります。ARTでは、体内でのHIVウイルスの複製を抑制し、免疫機能を高め、免疫力を再生させます—それにより、HIV感染を最大100%減少させられます。2015年に、WHOは、『抗レトロウイルス療法の開始およびHIVに対する暴露前の予防薬の開示時におけるガイドライン』、を公開し、HIV感染者は、抗レトロウイルス治療を迅速に開始することが推奨されています。
研究目的
本研究では、強化学習を活用し、EHE計画の削減指標をもとに、最適な検査およびケアの維持率に関する最適パターンの導出を目指しています。
HIVの削減には、診断・治療が最も効果的な介入とされています;そのため、最適な検査率、および、ケア継続率の導出により、HIV感染に対する有効な支援プログラムを策定できると考えられます。本研究では、強化学習—Reinforcement learning: RL—を活用し、マルコフ決定過程—MDP—を用いて確率的かつ動的なモデルに基づき、動的な決定シーケンスを評価します。MDPにより、流行の時間的な動的変化を反映した、意思決定の時間的な動的変化を評価し、新規感染を含めた、感染モデルを提供します。既存の先行研究では、最適な治療プロトコルをはじめとする、患者レベルの意思決定に焦点を当てており、集団ベースの感染を対象にした研究は、あまり報告されていないのが現状です。さらに、RL学習の反復回数は、行動可能なら選択肢の数に対して指数関数的に増加するため、膨大な計算コストがかかる課題があります:そのため、未発見の割合とHIV治療中の割合に基づき決定変数を再定式化し選択肢の数を減らすことで、計算量を削減しています。こうしたモデルにより、EHE目標を確率的な動的環境における逐次的な意思決定問題として評価し、将来的な逐次目標に対して有効な情報を提供します。
手法
本セクションでは、提案手法の概要について述べます。
提案手法では、MDPに基づき、RLを活用し、検査率と治療継続率に関する最適なパターンの導出をおこないます。ここでは、MDP、および、RLそれぞれについて解説します。
MDPに基づく環境設定
本セクションでは、提案手法で用いられている、MDPに基づいたモデルについて述べます。
MDPは意思決定問題の確率的定式化でありここでは定式化された環境について概略を述べます。時刻𝑡の流行状態を多変量パラメータ𝑋𝑡=[𝑝,𝜇𝑢,𝜇𝑎,𝜇𝐴𝑅𝑇;∀]—𝑝𝑖:リスクグループ𝑖のHIVの感染者—PWH—を人口の総数で割ったHIV有病率で;𝜇𝑢:リスクグループ𝑖のPWHで感染不明;𝜇𝑎:感染を知っているがARTを未受診;𝜇𝐴𝑅𝑇:感染を知っていてARTを受診の割合;∀:ケアのすべての治療段階。また、𝜇𝑢+𝜇𝑎+𝜇𝐴𝑅𝑇=1と設定しています。これに加え、時刻𝑡における介入決定𝐷𝑡=[𝛿,(1-𝜌);∀𝑖]—𝛿:診断率;1-𝜌)はリスクグループ𝑖における医療滞在率—、を用いて、MDPは下記の4要素で定義されます。
(1) Ω
状態空間を指し、流行の可能なすべての状態の集合です。異性愛者—heterosexuals:HETs —と、同性愛者—men who have sex with men:MSM—、に基づき、カテゴリ値を用いています。
(2) 𝐴
行動空間であり、全ての可能な決定—行動—の集合です。診断率(δ𝑖)と治療継続率(1-𝜌𝑖)の組み合わせではなく、ART未認知率およびART実施率の変化を代理変数として、定式化しています—こうした代理変数により、行動選択数を限定し、学習の収束率を向上します。
(3) 𝑃𝑎
行動𝑎の下での1段階遷移確率行列です。要素𝑃𝑎(𝑥,𝑥) は、行動𝑎が行われた時に流行が状態 𝑋𝑡=𝑥 から 𝑋𝑡+1=𝑥′へ移行する確率、を指します。ここでは、計算量の削減を目的として、行動と確率的遷移をシミュレートし、遷移先の状態を追跡し、即時報酬を推定しています。
(4) 𝑅𝑎
行動𝑎の下での即時報酬行列です。𝑅𝑎(𝑥,𝑥) は、流行が状態𝑥にあり、結果として状態𝑎に移行したときの即時報酬(総利益-総コスト)を指します。報酬には、総人口のQALYs—Quality-Adjusted-Life Years—を、一人当たりGDP—$54,000—を乗じて貨幣価値に変換した指標、コストには、HIV検査、ケア、治療にかかる総人口コストを設定しています。
任意の時刻𝑡における流行は1つの状態のみで表すことができ、時刻𝑡+1において流行状態𝑥に移行する確率は、時刻𝑡の流行状態𝑥にのみ依存すると仮定します。この時、
𝑃𝑟{𝑋𝑡+1∣𝑋𝑡,𝑋𝑡-1,𝑋𝑡-2,…}=𝑃𝑟{𝑋𝑡+1∣𝑋t}となり、MDPでのマルコフ性を満たしています。
目的関数(下式)は、期待報酬を最大化する最適な決定—最適政策—の導出です。𝒅は2016年から2070年までの5年間隔の最適な行動—エージェントの選択—を示しています。ここでは、現在のエポックにおけるコストと影響だけでなく将来のすべての意思決定エポックに関する、決定のコストと影響に基づき、決定されます。また、この式では、将来のコストと便益を割り引きません—将来回避された感染と予防されたコストの重みへの減少を防止し、HIVの撲滅につながる戦略を正確に特定するため、𝛾=1 と設定しています。
強化学習を活用した提案アルゴリズム
本セクションでは、提案手法で用いられている、RL—Q-learning—に基づいた最適パターンの導出アルゴリズム、について述べます。RLは①政策(意思決定の順序)を評価するシミュレーションモデルと、②評価する政策の選択を制御する最適化アルゴリズムを用いて、最適な意思決定を導出する機会学習手法です。
今回、HIVを対象としたMDPモデルの解決にあたり、価値反復や方策反復などをはじめとする、動的計画法—Dynamic Programing: DP—、および、SARSA・Q-learning などのアルゴリズムの活用が検討されます—今回のデータセットの大きさから、すべての状態とアクションの遷移確率行列を推定する必要のあるDPではなく、より計算量の少ないQ-learningを活用します:Q-leaningは、遷移確率行列の事前知識を必要とせずに、最適解に近い解を導出します。Q-learningでは、環境からシミュレーションにおける行動の即時報酬と、5年後の流行状態への遷移を受け取ります。最適化(下式)については、5年間の各行動の即時報酬を合計し、それまでの行動の総報酬を観察し、次にどのような行動を取るべきかを選択します。この反復プロセスを多数回繰り返し、最終的に最適な決定を導き出します。また、𝜖は、𝑘の増加に伴い減少するように設定しています:初期は行動探索が多く、時間経過につれ、経験を利用するようになります—exploration-exploitation trade- off—
また、感染シミュレーションでは、PATH 2.0、と呼ばれるツールを用いています:このツールは、HIV感染者を個別に追跡するエージェントベースの確率的シミュレーションをベースに、HIV疾患の進行と性的感染をシミュレートできます:米国のHIV流行をモデルとしており、2010年から2015年までの流行を正確にシミュレートします。本研究では、こうした環境に基づき、診断率および医療維持率を推定しています:介入プログラムのデータから、固定費と変動費を導出し、アウトリーチされた人数の非線形関数モデルとして定義をおこなっています。また、開始年月を2015年とし,5年間隔ごとに意思決定を行い,2070年までに新規感染者がゼロに近い状態に最適になる意思決定順序を導出します。Q-learningにおける反復では、2015年から2070年の5年ごとでQ値を更新します:行動を決定するフィードバックと制御ループ内でシミュレーションをおこないます。このプロセスを繰り返し、最終的に最適なポリシーに収束させます。
Q-learningの評価として、2000,3000,4000,5000と反復回数を変えて実行し、対応する総報酬を比較することで最適政策の不確実性の範囲を導出しています—反復回数が十分大きくない場合、収束前にアルゴリズムが終了してしまう可能性を調査しています。
不確実性の分析
このセクションでは、不確実性を考慮に設定された、3つのコスト関数について述べます。
ここでは、二つの不確実性を扱います:HIV感染における不確実性;介入コストの不確実性。前者では、HIV感染における、不確実な事象を再現します。具体的には、下記のステップです。
a) 入力パラメータを確率分布から求め,確率関数を用いて事象をシミュレート
b) MDPに基づいたQ-learningを活用
c) MDP 反復回数を2000 から 5000で調査し、最適政策を 100 回シミュレーションして出力メトリックの平均値を導出
という手順で実施されます。また、後者では、下記の4種類のコスト—保健医療プログラムの診療所あたりの固定コスト;保健医療アウトリーチプログラムの1人あたりの変動コスト;保健医療アウトリーチプログラムの変動コストの限界増加;検査アウトリーチプログラムの変動コストの限界増加—を活用した、下記の3つコスト関数を用いています。
(a) Median(検査・保定費用の中央値):4 つのパラメータすべての中央値を活用
(b) LTHR (Low Testing High Retention in Care Costs)。LTHR(Low Testing High Retention in Care Costs): 検査費用の最小値と医療維持費用の最大値を使用
(c) HTLR(High Testing Low Retention in Care Costs):テスト費用が最も低く、リテンション・イン・ケア費用が最も高い値を使用
これらから、各コスト関数の仮定に対して,複数の反復回数—2000,3000,4000,5000 回—で学習し、コスト関数と停止条件の組ごとに,100 回のシミュレーションを行い,最適政策と生成される対応する影響の平均値(100 回にわたる)を抽出しています。
結果
このセクションでは、評価結果について述べます。評価にあたり、HIVのEHE指標で提唱されている削減目標への影響を調査するため、強化学習を活用した、最適な検査率、および、ケア継続率—保菌率—の導出をおこなっています。
評価環境
このセクションでは、評価をおこなった環境について述べます。
評価にあたり、2015年から2070年までの推移を5年ごとに確認しています。評価環境として、下記の設定をおこないます:2015年末で、高リスクの異性愛者の年間検査率を0.26,MSM—同性愛者—を0.4;つまり、感染から診断までの平均時間を異性愛者で3.8年,MSMで2.5年である、と示しています。この設定から、異性愛者の年間保菌率を86%、MSMの年間保菌率を91%であることがわかります。
2016年から2070年までの最適な政策—具体的には異性愛者(とMSM)の検査率(下)と保菌率(上)の最適な組み合わせ—を時系列で示しています(下図)。
異性愛者(およびMSM)の自覚的な割合(上)とARTを受けている割合(下)では、3つの費用関数の仮定—中央値:青い帯、LTHR:赤い帯、HTLR:緑の帯—ごとに不確実性の範囲—斜線の帯—を示しています(下図)。
提案モデルでは、2016年から2020年まで、3つの費用関数において、高リスクの異性愛者およびMSMの検査率を0.2、それぞれ5年と3.5年に1回の検査に相当する0.3と設定しています(上図)。また、提案アルゴリズムにより、下記の方針が導出されています:HETsの年間保持率を86から94%、および、MSMの91から96%に徐々に増加させる。この期間、3つの全コスト関数で、検査率と治療継続率の不確実性の幅が狭いことがわかります—この結果から、提案アルゴリズムによりQ値が収束したことを示しています。これらの検査率とケア維持率を実現することで、2020年末までに異性愛HIV患者—people with HIV: PWH—の約85%とMSMPWHの約82%が感染を自覚し、2020年末までに異性愛者PWHの約70%とMSM PWHの約70%がARTを受けることが想定されます。また、2016年から2020年では、検査とケア維持率を組み合わせることで、異性愛者の新規感染者数は50%減少—2016年の9000人から2020年末までに4500人—、MSMの新規感染者数は42%減少—2016年の26000人から2020年末までに15000人—となり、過去5年間の傾向と比較して、大きく減少していることがわかります(下図)。
また、異性愛者PWHは、緩やかに減少している一方、MSM PWHは増加が見られ、PWH数は、短期間、増加を続けた後、減少することがわかります(下図)。
HIVの年間コストはこの期間、22%増加しており、上記の新規感染者数減少を達成するためには高い初期投資が必要であることが示唆されます(下図)。
2021年から2025年では,異性愛者とMSMの両方で、検査頻度を緩やかに増加させ,高い保菌率を維持することを示唆しています。また、異性愛者の年間保持率を94%から96%に、MSMの年間保持率を96%から98%に向上させるために、ケア付き保持プログラムの規模の拡大を提唱しています。新規感染者の減少は、異性愛者、MSMともに緩やかであった一方、PWH数は減少していました。2026年から2030年において、異性愛者ではMedianとHTLRの費用関数で—MSMではすべての費用関数で—検査率は0.1—10年に1回以下の検査—に下がり、残りの期間、その値を維持していました。異性愛者では、2030年までに、新規感染者数が約3200~4000人、2070年までに750~1200人に減少していました;MSMでは、新規感染者数は2030年までに約11000~14000人に減少し、2070年まで3500~6000人に減少しています。
考察
本研究では、HIVの撲滅を目的とした、公衆衛生における疫病対策における、意思決定のための方法論について、調査・提案をおこなっています:具体的には、HIVの撲滅—EHE指標—で提示されているHIV感染者の削減目標人数について、強化学習を活用し、検査率と保菌率に関する最適化をおこなっています—MDPとして定式化し、Q-learninを用いて、逐次意思決定問題としてモデル化しています。評価結果として、事前に選択されたシナリオを活用したアプローチと比較し、提案手法では、意思決定と流行の確率的予測に基づき、提示された選択肢—3611の選択肢—から最適な選択をおこなっていました。検査率と保菌率の最適な組み合わせの導出には、コストとQALYsを評価しています。また、こうした意思決定モデルにおいて、状態・行動空間の大きさから膨大な計算量が必要となり、収束するのが困難な問題がありました;こうした課題に対し、間接的な指標を導入し、行動空間を再定式化することで、行動空間の大きさを削減しています。本研究は、検査と治療が蔓延を抑制するケースを示唆しており、他の感染症にも適用可能であると考えられます。
強化学習を活用した最適な政策は、最初の10年間はより高頻度で検査をおこない、その後は新規感染者数が減少に伴って、検査の頻度を減らす、ことであると示唆されています。具体的には、最初の10年間で年間の受診率95%に徐々に引き上げ、その後も維持するための受診率維持プログラムを実施することを提案しています。本モデルでは、検査率よりも高い保菌率を目指す方針を導出しており,保菌への支出を優先させるべきことを示しています。また、最適な方針について、想定した範囲内において、コストの不確実性に対して頑健でした—モデルは,中央値および HTLR の費用関数よりも低い検査費用を利用し,高い検査率をより長い期間維持することを示唆しています
本研究の課題として、下記のような点が考えられます。第一に、提案手法では、現在存在している検査・治療技術に限定して評価をおこなっています:つまり、治癒の可能性や検査・治療費用の大幅な改善を対象外としています;そのため、治療薬の入手できるようになった場合、最適な意思決定が変化する可能性があります—HIV感染の減少によるHIV撲滅までの達成時間・達成確率の変化、コストの削減によるGDPとのトレードオフの改善。一方、本モデルの結果は、治療費が高いケースにおいても、検査より治療に資源を配分することに有利であると示されており、検査費に対して治療費が削減された場合にも、この結果は適用可能であることが示唆されます。
この記事に関するカテゴリー