AIがCOVID19などの感染からロックダウン(都市封鎖)すべきかどうかを教えてくれる！強化学習によって政策の最適化！

COVID-19 2020年04月29日

3つの要点
✔️ 強化学習による感染症流行を制御するロックダウン（都市封鎖）政策の最適化
✔️ 感染者死者数と経済損失を最小レベルに抑えることが可能
✔️ 判断基準が説明可能

Optimising Lockdown Policies for Epidemic Control using Reinforcement Learning
written by Harshad Khadilkar, Tanuja Ganu, Deva P Seetharam
(Submitted on 31 Mar 2020)
Comments: Published on ArXiv
Subjects: Physics and Society (physics.soc-ph); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Populations and Evolution (q-bio.PE); Machine Learning (stat.ML)

はじめに

本論文は感染症流行下におけるロックダウン(都市封鎖)の政策を強化学習に判断させるという内容です. AlphaGoは人類最強の囲碁棋士に勝利し人智を超えて進化し続け(MuZero), 遂にAtari 2600のゲームをAgent57は攻略しました. これらは与えられた環境下で報酬をたくさんもらえる行動を学習していく強化学習というAIがベースになっています. タンパク質の立体構造予測という科学的発見(AlphaFold), 動物の動きを模倣するロボット制御(ロボティクス), 自動運転, ビルの振動軽減(1,2), スマートエネルギーなどの制御, ゲーム設計, マーケティング戦略, 広告配信の最適化(AdTech), 金融取引(FinTech), 渋滞解消, そして逆に行動から報酬を推定する逆強化学習という枠組み等を含め実社会の産業やビジネスへの様々な活用が活発に検討されています.