AIがCOVID19などの感染からロックダウン(都市封鎖)すべきかどうかを教えてくれる!強化学習によって政策の最適化!
3つの要点
✔️ 強化学習による感染症流行を制御するロックダウン(都市封鎖)政策の最適化
✔️ 感染者死者数と経済損失を最小レベルに抑えることが可能
✔️ 判断基準が説明可能
Optimising Lockdown Policies for Epidemic Control using Reinforcement Learning
written by Harshad Khadilkar, Tanuja Ganu, Deva P Seetharam
(Submitted on 31 Mar 2020)
Comments: Published on ArXiv
Subjects: Physics and Society (physics.soc-ph); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Populations and Evolution (q-bio.PE); Machine Learning (stat.ML)
本論文は感染症流行下におけるロックダウン(都市封鎖)の政策を強化学習に判断させるという内容です. AlphaGoは人類最強の囲碁棋士に勝利し人智を超えて進化し続け(MuZero), 遂にAtari 2600のゲームをAgent57は攻略しました. これらは与えられた環境下で報酬をたくさんもらえる行動を学習していく強化学習というAIがベースになっています. タンパク質の立体構造予測という科学的発見(AlphaFold), 動物の動きを模倣するロボット制御(ロボティクス), 自動運転, ビルの振動軽減(1,2), スマートエネルギーなどの制御, ゲーム設計, マーケティング戦略, 広告配信の最適化(AdTech), 金融取引(FinTech), 渋滞解消, そして逆に行動から報酬を推定する逆強化学習という枠組み等を含め実社会の産業やビジネスへの様々な活用が活発に検討されています.
著者らが述べている論文の貢献
- 国の都市毎の最適な封鎖/緩和政策を計算する方法
- 強化学習により最適な政策を学習する
- 健康と経済の損失バランスは明示的に設定できる
- ネットワークデータ, 感染症モデルパラメータ, 損失の定義を変えてもok
- 計算された政策は完全に説明可能でありブラックボックスではないので意思決定と介入理由を知ることができる
著者らが述べている本論文の限界
- 著者らは伝染病の専門家ではない. ここではコンセンサスの取れている感染症数理モデルを使用する
- マクロな人口と地理の効果は考慮されているが, 個々人の動向等は詳細には考慮されていない
- 実データを使っていないが, COVID-19の性質になるべく近づけた.
続きを読むには
(6132文字画像9枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー