血糖管理における、最適な治療方針決定を支援するモデル提案！逆強化学習による報酬関数を推定する強化学習モデルを構築！

medical 2021年06月22日

3つの要点
✔️ 近年急増する糖尿病患者に対して、血糖管理の重要性に注目が集まっています。
✔️ 本研究では、こうした課題を克服するため、強化学習（Reinforcement learning: RL）を用いて、症例に合わせた治療方針の意思決定支援モデルについて提案
✔️ 血糖管理に関する3つの状態—normal medium severe—のうち、mediumへの遷移が最も高い確率であることが示されました。この結果は、normal 状態への状態遷移を目的とする専門医の行動とは直感的に反するものの、推定が困難な報酬関数を導出できる逆強化学習の利点は大きく、今後も期待がかかります。

An Application of Inverse Reinforcement Learning to Medical Records of Diabetes Treatment
written by H. Asoh, M. Shiro, S. Akaho, Toshihiro Kamishima
(Submitted on 23 Sept 2013)
Comments: Accepted at ECMLPKDD2013 Workshop
Subjects: Reinforcement Learning (cs.RL); Machine Learning (stat.ML)

背景

データに存在しない専門家の行動に基づき、治療方針を再現する意思決定支援モデルの構築は可能なのか？

本研究は、虚血性心疾患をはじめ、重篤な循環系疾患のリスク因子である、血糖値を管理する過程に対して、マルコフ決定過程（Markov decision process: MDP）を用いた分析を実施しています。近年の生活習慣・食習慣の変化などから、血糖値の増加による糖尿病患者が急増し、これらの原因である血糖を適切に管理する治療方針に注目が集まっています。こうした管理過程は、症例ごとに最適化することが望ましい一方、患者特性に合わせた治療方針の実現は、コスト面などを考慮すると困難であることが推察されます。そのため、最適な治療方針の導出を目的として、意思決定分野で用いられる、強化学習（Reinforcement learning: RL）を導入し、症例に最適な治療方針を導出する推定モデルの構築に注目が集まっています。

本研究は、血糖管理過程に関するデータセットに対して、強化学習を用いた治療方針の決定支援システムの構築を目的としておこなわれました。モデル化にあたり、マルコフ決定過程（MDP）を用いて状態遷移をベースとし、逆強化学習を用いて、データ上に存在しない、報酬関数の推定をおこなっています。

血糖値・血糖管理とは

まず初めに、本研究の解析対象である、血糖値とそれに伴う糖尿病について簡単に説明します。

血糖値は、血液内のグルコース（糖・ブドウ糖）の濃度のことを指し、血液中にどれくらい糖が含まれているか、を示します。これらの物質は、日々の活動エネルギーとして使われ、食後に急上昇し、その後緩やかに正常値に戻ります。一方、耐糖異常といった要因により、血糖値が高い状態—血液中に糖が多い状態—が継続すると、血管障害—血管の壁が破壊され、血栓の発生・破裂するなどの状態—が発生します。また、内臓や脳機能、血圧への影響から、特に毛細血管が多く存在する臓器—腎臓・脳・肝臓—や大きな血管が通る臓器—心臓など—にて大きな障害が引き起こされる確率が急増します。こうした血糖値が高くなる状態を血糖異常（糖尿病）と呼びます。

糖尿病には、2つの要因が存在し、呼び方が異なります：膵臓の機能低下により、細胞に糖を取り込むためのインスリンの分泌量が低下する症状（インスリン分泌低下・Ⅰ型糖尿病）；細胞内に糖を取り込むための扉がうまく開かない症状（インスリン抵抗性・Ⅱ型糖尿病）。インスリンは、細胞内に糖を取り込むための「鍵」のようなもので、前者の場合、鍵の生産量が低下してしまい、血管内の糖濃度が上昇します。この原因として、主に膵臓でのインスリン分泌量の低下が考えられ、遺伝などが原因として指摘されています。一方、後者の場合、過剰な血糖により、細胞の扉を開ける鍵がうまく機能しなくなる、といった症状になります。この要因として、過食・肥満といった生活習慣に起因することが多く、一般的には、このⅡ型糖尿病を糖尿病として指すことが多いです。

血糖管理は、こうした血糖値の上昇による血管障害を防ぐための治療です。この治療は、主に空腹時血糖・HbA1c、という測定指標に基づいて行われます：前者は、食事前の血糖値、後者は、糖と結びついたヘモグロビン—血液成分の一種—の割合、を指します。こうした血糖管理を適切におこなうことで、上述した重篤な疾患の予防することができる一方、個々の症例に適応的におこなうことが望ましいとされています。本研究は、強化学習モデルを用いて、個々の症例に合わせた、血糖値に関する最適な管理指針の実施するモデルの構築をおこなうことを目的としています。

血糖管理におけるモデルの検討

上述のように、血糖値の上昇は、糖尿病だけでなく、血管に関わる疾患—心血管疾患・腎疾患—のリスク因子であり、生活の質にも関わるため、血糖値を適切に管理（血糖管理）する必要があります。特に、食事をはじめとする、生活習慣は、個々人によって全く異なるため、各症例に最適化されたち血糖管理が望ましいことが推察されます。また、血糖管理をはじめとする、医療行為は、医師と患者の相互作用的な側面—医師が検査を通して、患者の状態に応じて適切な治療法を選択し、患者の状態を変化させる—側面があります。そのため、従来の医療データの統計解析で対象となっている、単一の治療法・要因の影響を評価するようなモデルでは、こうした要因を考慮することが困難であることが想定されます。また、血糖管理は、生活習慣の改善などを長期間にわたり行うことから、長期治療の記録を分析し、生活の質に与えるコスト・利益を評価する分析が求められる一方、こうした長期治療の記録に関する分析を検討した研究は少ないのが現状です。

研究目的

本研究では、モデルベースの強化学習の一種である、マルコフ決定過程（Markov decision process: MDP）を用いた、血糖値の管理過程のモデル構築を目的としています。前述のように、血液中の血糖値の増加によって、心血管疾患をはじめとする、重篤な循環器系疾患のリスクを低減するため、血糖値の管理を個々の症例に合わせておこなう必要があることが考えられます。一方、こうした血糖管理を対象とした従来研究では、統計的な手法が中心であったため、個々の症例における要因を的確に反映することが困難であることが考えられます。こうした個々の症例の特性を適切に反映するため、本研究では、強化学習を導入し、統計的な手法では反映が困難であった、症例に合わせた最適な血糖管理を提案するモデルの構築を目指しています。具体的には、医療記録からMDPのパラメータ、および、患者の状態進行を推定し，状態と行動（治療）の価値を評価しています。また、これらの評価から、症例の状態に応じた最適な行動選択ルール（方策）の推定をおこなっています。またこうした管理の評価として、医師の意見に基づく単純な報酬関数などが想定されますが、妥当性が不明瞭である課題がありました。そのため、本研究では、専門家の行動データから報酬関数を推定する逆強化学習（IRL）を用いることで、こうした課題の解決を目指しています。

手法

データセット

本研究では、こうした血糖管理過程のモデル化にあたり、データベースに蓄積された、入院患者の通院時を含めた診療記録データを用いています。特に、糖尿病がリスク因子の一つである、虚血的心疾患の治療法の一つ、経皮的冠動脈形成術(percutaneous coronary intervention: PCI) のために、入院治療を受けたことのある患者約3,000名分の通院時のデータを用いています。また、今回用いたデータセットは、病院の検査・処方のオーダーシステムから抽出した後、匿名化されており、個人情報、痛み等の訴え、医師の所見などの電子カルテ上の情報は含まれていないと報告されています。収集された各患者のデータは、一定の治療方策に従ったひとつのエピソードと捉えることができます。具体的には、通院の間隔75 日で、エピソードを分割し，24 回(約 2 年間)以上にわたって通院治療が続いているケースを抽出したア場合、801個のエピソードが確認されたことを示しています。また、エピソードの長さ(通院回数)は、最短が25，最長が124 であったことを報告しています。また、血糖値の状態を生成するため、ヘモグロビンA1c（HbA1c）から、2つの閾値（6.0・8.0）によって、3つのレベル（正常、中程度、重度）に分類しています。また、薬物治療では、薬効に応じてグループ化し，同時に処方される薬剤グループの組み合わせのパターンを特定し、データ上から、38個の組み合わせパターンを確認しています。

血糖管理過程を対象としたモデル設定

本研究では、上述した課題—個々の症例に合わせた、最適な血糖管理過程の導出—に対して、マルコフ決定過程（MDP）をもとに、治療の長期的なプロセスをモデル化しています。前述のように、統計的手法では、モデルの特性上、症例に最適なプロセスを導出することが困難であるため、本研究では、強化学習を導入することでこうした課題を解決することをめざしています。MDPは、状態遷移が確率的に生じる動的システムの確率モデルであり、状態遷移がマルコフ性を満たすモデルを指します。MDPは、エージェントによる行動、および、環境からの次状態・報酬、の状態遷移をモデル化した概念であり、状態、行動、確率遷移関数、報酬関数、初期状態確率、方策、の6つで決定されます。強化学習の基本は、このMDPの状態遷移モデルに基づいて行動するエージェントをコントロールする方策の学習です。本研究では、こうした状態遷移を用いたモデル構築にあたり、まず、抽出したエピソードから、マルコフ決定過程（MDP）の状態遷移確率、医師の平均的な行動方策、の二つを推定しています。また、報酬関数として、検査値が normal であるときに報酬 1 が得られると仮定し、Bellman方程式から、状態価値と行動価値を導出し、報酬の割引率γには 0.9 を用いています。

逆強化学習による報酬関数の推定

本研究では、解析対象データには明示されていない報酬に関する情報を補完するため、逆強化学習を導入し、医師の行動から報酬関数を推定しています。

通常、強化学習では、方策の学習において、報酬関数の設定することが中核をなすため、与えられたデータからこのような関数を推定する過程が存在します。一方、今回のように、データ上に、報酬推定に必要な情報がない場合、採用すべき報酬関数は分析の目的に依存する一方、選択基準は不明瞭である課題が存在します。そのため、本研究では、医師の行動から報酬関数を推定する逆強化学習を用いて、方策の学習をおこなっています。具体的には、PolicyWalkと呼ばれる、ベイズ的逆強化学習のアルゴリズムを適用し，医師の行動から報酬関数を推定しています。PolicyWalk では、報酬値は血糖値の状態のみによって決まると仮定し、報酬関数 R は 3 次元のベクトル R = (Rnormal, Rmedium, Rsevere) によって表現しています。また，これら報酬は、互いに相対的な状態として定義されるため、 Rnormal + Rmedium + Rsevere = 1 となるように正規化して定義しています。またこのアルゴリズムは、報酬をベクトルとして設定し、Policy iteration —仮定した方策を元に、方策の評価・改善により、学習をおこなうアルゴリズム—を採用しています。

結果

評価条件

データから抽出されたエピソードを用いて、まず、MDPの状態遷移確率と医師の方針πを推定しました。離散化されたHbA1cの値は状態セットSで構成され、薬の組み合わせは行動セットAに対応しています。確率の推定では、データが少なさによる未学習の影響を避けるため、ラプラス平滑化を利用しています。前述のように、観測値（状態）を3段階に離散化しています：報酬関数Rは3次元ベクトルr = (Rnormal, Rmedium, Rsevere)、で定義されています。

逆強化学習で推定された報酬関数の結果

この評価で字は、上述した設定のもと、血糖管理に関する専門医の行動から、逆強化学習により推定した報酬関数の推定結果を明示する目的とおこなっています。

MCMCサンプリングの結果，ほぼ1に等しい確率でr = (0.01, 0.98, 0.01)が示されました（図1：Rmediumの典型的なサンプリングシーケンス）。の結果から、mediumの状態の報酬値が最も高いことを示唆しています。また、報酬ベクトル：(0.98 0.1, 0.1)、(0.1, 0.98, 0.1)、(0.1, 0.1, 0.98)を用いて、オブザベーションの対数尤度の値を比較した結果、-159878、-143568、-162928となり、尤度としても、medium が最も高い結果となりました。

考察

本研究は、血糖管理過程に関するデータセットに対して、強化学習を用いた治療方針の決定支援システムの構築を目的としておこなわれました。モデル化にあたり、マルコフ決定過程（MDP）を用いて状態遷移をベースとし、逆強化学習を用いて、データ上に存在しない、報酬関数の推定をおこなっています。評価結果として、推定された報酬関数によるサンプリングをおこない、mediumの状態遷移確率が最も高いことが確認されました。

今回の評価結果では、mediumの状態遷移確率が、0.98、と、その他の状態より高い結果であることが示唆されました。治療の目的が、本来、normal 状態への遷移確率を向上、であることを考慮すると、この結果は直感に反しています。このような結果になった理由として、次のようなものが推察されます：MDPモデルによるモデルの解釈では、医師の意思決定プロセスの複雑性を適切に反映できない；使用したデータにおいて、medium状態の患者数がその他よりも多い、ことが考えられます。また、報酬ベクトルr=(0.01, 0.98, 0.01)の下で、最適な行動は、専門医の行動と類似性がそれほど高くないことから、推定された、報酬関数が純粋に患者の現在の状態に依存するという仮定が単純すぎることを示唆している、ことが論文内で述べられています。このように、逆強化学習は、医療分野にて導入の課題があるものの、データ上から計算できない報酬関数を推定することが可能であるため、今後の発展に期待がかかります。