複数の治療目標と個人特性を同時に考慮！？　深層強化学習を活用した、糖尿病に対する治療決定モデルの提案！

medical 2022年03月28日

3つの要点
✔️ Ⅱ型糖尿病—T2DM—および合併症では、疾患管理によって予防できる可能性が高い一方、T2DMの治療方針における治療ターゲットの多様性、また、方針決定について患者の個人差を考慮する必要がある
✔️ 本研究では、深層強化学習に基づき、個人特性および治療対象の多様性を考慮した、T2DMの治療方針導出モデルを提案
✔️ 評価の結果、提案された治療方針により、血糖・血圧・血中脂質コントロールにて、適正値の範囲内となる治療方針の導出が確認

Effective Treatment Recommendations for Type 2 Diabetes Management Using Reinforcement Learning: Treatment Recommendation Model Development and Validation
written by Xingzhi Sun, Yong Mong Bee, Shao Wei Lam, Zhuo Liu, Wei Zhao, Sing Yi Chia, Hanis Abdul Kadir, Jun Tian Wu, Boon Yew Ang, Nan Liu, Zuo Lei, Zhuoyang Xu, Tingting Zhao, Gang Hu, Guotong Xie
(Submitted on 22 Jul 2021)
Comments: J Med Internet Res

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

個人特性・多様な治療対象を考慮した、最適な治療方針の導出は可能なのか？

本研究では、Ⅱ型糖尿病を対象とし、強化学習に基づき、個人特性および多様な治療対象に適応できる、治療方針の導出モデルの構築を目指している。

2型糖尿病—T2DM—は、高い血糖値状態を特徴とする慢性疾患で、複数の合併症を引き起こし、死亡のリスクを高める。こうした合併症は、疾患管理によって予防できる可能性が高い一方、個人特性の影響の大きさ・治療対象の多様性から、推奨される治療と実際に受ける治療とのギャップが指摘されている—画一的な治療方針の決定が困難であり、個別化された治療をおこなうことが求められている。また、糖尿病は、慢性的な症状を持つことから、長期的な治療が必要となり、下記の要因から、意思決定がより複雑になる：

（1）1回の治療効果がすぐに反映されない、（2）患者が受ける治療プログラムの選択肢は多岐に渡る

こうした背景から、本研究では、強化学習—Reinforcement learning: RL—を活用し、個人特性、および、多様な治療目標を考慮できる、最適な方針導出をおこなうモデルの構築を目指す。

Ⅱ型糖尿病—T2DM—とは？

初めに、本研究の解析対象である、Ⅱ型糖尿病について簡単に解説する。

血糖値は、血液内のグルコース—糖・ブドウ糖—の濃度を指し、血液中にどのくらいの糖が含まれているか、を示す。これらの物質は、日々の活動エネルギーとして使われ、食後に急上昇し、その後緩やかに正常値に戻る。一方、耐糖異常といった要因により、血糖値が高い状態—血液中に糖が多い状態—が継続すると、血管障害—血管の壁が破壊され、血栓の発生・破裂するなど—が発生する。また、内臓や脳機能、血圧への影響から、特に毛細血管が多く存在する臓器—腎臓・脳・肝臓—や大きな血管が通る臓器—心臓など—にて大きな障害が引き起こされる可能性が向上する。こうした血糖値が高くなる状態を血糖異常—糖尿病—と呼ぶ。

糖尿病は、2つの要因が存在し、これら要因によって異なる呼び方をする：膵臓の機能低下により、細胞に糖を取り込むインスリンの分泌量が低下する症状—インスリン分泌低下・Ⅰ型糖尿病—；細胞内に糖を取り込む扉がうまく開かない症状—インスリン抵抗性・Ⅱ型糖尿病—。インスリンは、細胞内に糖を取り込むための「鍵」のようなもので、前者の場合、鍵の生産量が低下し、血管内の糖濃度が上昇する—原因として、主に膵臓でのインスリン分泌量の低下が考えられ、遺伝などが原因として指摘されている；一方、後者の場合、過剰な血糖により、細胞の扉を開ける鍵がうまく機能しなくなる—要因として、過食・肥満といった生活習慣に起因することが多い。一般には、Ⅱ型糖尿病を糖尿病として指すことが多い。

研究目的

本研究では、強化学習を活用した、個人特性および多様な治療目標を考慮した、治療方針に対する導出アルゴリズムの構築、を目指す。

T2DMの治療において、多様な治療目標・個人差の影響から、一律的な治療方針の意思決定が困難とされ、個別化された治療が必要とされている。本研究では、こうした課題に対し、RLを活用し、個人特性を反映し、かつ、複数の治療目標も考慮できる、最適な治療方針を導出する学習モデルの構築を目指す：具体的には、複数の医療施設が集結した医療クラスターにて収集された、電子カルテ—EMR—に関するデータセットを活用し、深層RLアルゴリズムを適用し、モデルの構築をおこなった。また、T2DMに対する治療目標として、抗血糖治療、降圧治療、脂質低下治療の3つを対象として学習をおこなった。

手法

このセクションでは、本モデルに関する概要について述べる。

データセット

使用したデータは、2013年から2018年までの6,407,958人の外来受診を含む189,520人のT2DM患者を包含するシンガポール健康サービス糖尿病レジストリから収集された。データセットは、3種類の治療指針—抗血糖療法、降圧療法、脂質低下療法—を含む学習用トレーニングデータ—80％、152,527人—と、これら治療効果を評価するテストデータ—20％、36,993人—に分割した。各患者のEMRデータでは、人口統計情報、病歴、身体計測、検査データ、医師の処方箋、また、検査データでは、糖化ヘモグロビンA1c—HbA1c—、低比重リポ蛋白コレステロール—LDL-c—、空腹時血糖値などが含まれている。

臨床転帰

本モデルにおける臨床転帰は、短期的と長期的の2種類を設定した：短期アウトカムは、血糖コントロール，血圧コントロール，血中脂質コントロール，低血糖関連入院など、を定めた；長期アウトカムでは，心筋梗塞，心不全，脳卒中—虚血性・出血性脳卒中を含む—，糖尿病性腎症、などの糖尿病合併症と死亡の発生、を定めた。

提案モデル

提案モデルでは、来院時の臨床情報を入力とし、抗血糖薬、降圧薬、脂質低下薬の3種類の治療法を出力として、最適な治療方針の導出をおこなう—入力には、人口統計情報、検査データ、身体計測、病歴、現在の処方箋、が含まれる。3種類の薬剤を推奨するため、3モデルの出力を組み合わせ、包括的な治療推奨をおこなうモデルを構築する。

また、本モデルでは、個人特性および複数の治療目標に対応するため、ナレッジドリブンモデルとデータドリブンモデルの二つを組み合わせ、より柔軟な導出モデルの構築を目指した：前者では、臨床ガイドラインや専門家の経験に基づくモデルを適用し、候補となる薬剤を選定する；後者では，深層RLに基づき，臨床効果に応じた候補薬のランク付けをおこない、多様な治療方針の導出を実現した。また、これらモデルでは、前者のナレッジドリブンモデルを最初に適用し候補となる薬剤を選択した後、後者のデータドリブンモデルを用いて、臨床結果によって候補をランク付けとおこなう—下図参照。

提案モデルにおける報酬関数—下式—では、以下の指針に基づき設計した：報酬の与えられる条件として、（1）3-6ヶ月後のHbA1cが管理目標値—7％未満—に達し、（2）今後6年間の患者の最後の診察まで合併症や死亡が発生しなかった場合、を定めた；ペナルティを与える条件では、（1）3-6ヵ月後のHbA1cが十分にコントロールされていない、（2）今後6ヵ月間に低血糖事象が発生する、（3）今回の受診後に合併症または死亡が発生する場合、を設定した。

評価方法

ここでは、本研究における評価方法について述べる—評価では、短期的・長期的な視点の二つを定めた。

短期的な評価として、モデル一致度を曝露因子とした多変量回帰モデルを構築し、医師による処方とモデル推奨薬との一致度合い、にて評価をおこなった。また、血糖・血圧・血中脂質コントロール、低血糖イベントなどにおける、目標達成率という観点から、両群間で比較し、短期的なアウトカムに対する評価とした；一方、長期的評価では、抗血糖薬，降圧薬，脂質低下薬との併用療法を評価するため，モデル一致率を独立変数に含めている。ここでの、モデル一致率は、治療方針が一致した受診者数を総受診者数で割って算出した。この指標は、各患者がモデルの推奨事項をどの程度遵守しているかを定量化することを目的としている。

結果

このセクションでは、本研究における評価結果について解説する。

短期的なアウトカムに対する評価

短期的なアウトカムの評価では，モデルの一致度を曝露変数とし，治療推奨モデルの効果を受診者レベルで評価した。テストデータは，異なる短期アウトカム—治療開始3～6カ月後でHbA1c<7% , SBP/DBP<140/90 mmHg, LDL-c<2.6 mmol/L となる患者割合を対象とした。評価の結果、解析対象の43.3％において，モデルで推奨された抗血糖薬に対する治療方針にて、実際の医師による方針と一致していた；その一方、降圧剤と脂質低下剤の一致率は、患者全体で、それぞれ51.3%と58.9%であった．また、各治療方針と予後改善では、血糖コントロール—オッズ比［OR］1.73、95％CI 1.69-1.76—、血圧コントロール—OR 1.26、95％CI 1.23-1.29—、血中脂質コントロール—OR 1.28, 95％ CI 1.22-1.35）—となり、提案モデルによる予後改善の効果が確認された。

長期的なアウトカムに対する評価

長期的なアウトカムに対する評価では、全患者を対象に、抗血糖療法、降圧療法、脂質低下療法について、患者のモデル一致率と長期的なアウトカムの発生率—下図—を評価した：モデル一致率と合併症・死亡の発生率では負の相関があり、モデル一致率が高いほど、合併症や死亡の発生率は低くなる、ことがわかる。

また、抗血糖薬，降圧薬，脂質低下薬の複合治療について，3種の治療に対するモデル一致率が、合併症や死亡リスクの低減に与える影響について、多変量回帰で評価した。その結果、XGBoostに基づく予測モデルが、臨床的なベースラインモデルを上回り、受信者動作特性曲線下面積は0.71～0.87と示すことが確認された。また、各治療法のモデル一致率は，主要合併症の発生・死亡と、負の相関を示していた—これらの結果から，モデルによる推奨治療とより近い治療を受けた患者ほど，糖尿病合併症—i.g. 大血管合併症と細小血管合併症—や、死亡リスクが低下することを示唆している。

考察

本研究では、医療クラスターから収集された、大規模データセットを活用し、個人特性およびT2DMの複数の治療目標を考慮した、治療方針の導出モデルを提案した。評価結果から、提案モデルによる抗血糖薬は，43.3%の割合で実際の処方と同一であった。また、治療推奨の評価では，血糖値—OR 1.73—・血圧—OR 1.26—・血中脂質—OR 1.28—でコントロールされることが確認され、糖尿病合併症リスクも低い値を保持していた—これらの評価結果から，提案モデルは，より良いアウトカムを達成できる薬剤の処方を導く可能性が高い、ことを示唆している。また、死亡リスクを含めた長期的アウトカムに対しても改善される傾向が確認され、提案モデルが糖尿病合併症のリスクの低減、および、臨床転帰の改善に対して有用であることが示唆される。

本研究の強みとして、二点挙げられる：一つ目は、モデル構築・評価に使用したデータセットの質の高さ、である。今回活用したデータセットは、大規模な患者集団の医療記録—電子カルテ—で構成され、6年間にわたる調査から異なるタイプの糖尿病合併症—大血管および細小血管—を含んでいる。こうした規模のデータセットでの学習・評価をおこなった前例は限られており、本研究の特徴の一つである；二つ目は、糖尿病における網羅的な治療方針を対象としている点である。本研究では3種類の治療法—抗血糖療法、降圧療法、脂質低下療法—を対象とし、短期では主要指標のコントロール、長期的では糖尿病合併症の発生という2種類のアウトカムで評価している。こうした評価により、糖尿病の治療方針に対するより汎用的な導出モデルを実現している。

一方、課題として、以下の二点が主に挙げられる：EMRによるバイアス；統一的な治療目標の設定。本研究では、T2DM患者におけるEMRmに基づいているため、処方の選択に影響を与える情報が欠落している可能性がある—i.g. 薬の変更を嫌がる患者に対する以前の処方を繰り返し。こうした患者の嗜好は、本研究で活用したデータセットに記録されておらず、治療方針に対してバイアスとして作用する可能性がある—そのため、解決策としては、こうしたバイアスを含めた追加調査や交絡を考慮した線形モデルの設計、が考えられる。二つ目に、本研究では、統一された治療目標が用いられているため、HbA1cの目標値が厳密でない可能性がある—患者状態によっては、深刻でない可能性がある。この点については、動的レジームと対象とするなど、より個人特性に焦点を当てた調査をおこなうことが解決策として考えられる。