白血病の治療方針モデルで再現！深層強化学習による、白血病の治療方針の決定フレームワークの提案

medical 2021年06月14日

3つの要点
✔️ 疾患の進行具合、副作用や検査値等に基づいて治療法を動的に変更しながら決定する治療方針である動的治療レジーム（DTR）があります。
✔️ 深層強化学習を用いて、観察された医療データから最適な動的治療レジームを推定するフレームワークの開発
✔️ DTRにおける複雑な治療方針の決定を支援し、個々の症例に合わせた最適な方針を決定可能なモデルの構築の実現に期待

Deep Reinforcement Learning for Dynamic Treatment Regimes on Medical Registry Data
written by Ning Liu, Ying Liu, Brent Logan, Zhiyuan Xu, Jian Tang, Yanzhi Wang
(Submitted on 28 Jan 2018)
Comments: Published in final edited form as: Healthc Inform.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (stat.ML)

code：

背景

強化学習により、専門家による、個々の病態や症状に合わせた動的な治療を再現することは可能なのでしょうか？

本研究は、観察された医療データから最適な動的治療レジーム（Dynamic treatment regime: DTR）を推定することを目的とした、深層強化学習に基づく治療方針決定フレームワークを提案しています。DTRは、疾患の進行具合、副作用や検査値等に基づいて治療法を動的に変更しながら決定する治療方針、を指します。近年、症例の特徴に合わせた個別化医療の注目が集まるとともに、DTRの導入促進も進められていますが、白血病とはじめ、過剰な治療により、長期的にみて、最終的なエンドポイントを悪化させることに対して、医師の判断が難しいことがあります。こうしたケースに対して、最適な治療方針を提案することで、その後の予後・症状の改善につながることが考えられます。

本研究では、こうした課題に対し、深層強化学習を用いて、骨髄移植における、急性・慢性的な合併症データセットから、治療方針を決定する意思決定支援モデルの構築を提案しています。従来の強化学習で用いられる、Q-learningなどでは、状態・行動数の増大に対応することが困難である課題があったため、本手法では、深層学習モデルを用いて、こうした膨大な数のパターン処理をおこなっています。

動的治療レジメン（Dynamic treatment regime: DTRs）とは

まず初めに、本研究の解析対象である、動的治療レジメン（DTR）について簡単に説明します。

DTRは、疾患の進行具合、副作用や検査値等に基づいて治療法を動的に変更しながら決定する治療方針のことを指します。例えば、治療を開始する検査値の適切な基準を、予後の観点から評価する際に使用します。こうした考え方は、個々の患者の特徴や遺伝情報に合わせて治療選択を考慮する、という点で、個別化医療の実現に対して非常に重要なものとして注目を集めています。特に、がんにおける放射線治療をはじめとした、過剰な治療により最終的なアウトカム・QOLの低下を引き起こすようなケースでは、医師の判断が難しいことがあります。また、投薬においても、ステロイドのような、強力な副作用を持つ薬を継続して使用することで、薬に対する耐性ができてしまい、代替となる薬の選択肢が狭まるケースがあります。こうしたケースに対して、最適な治療方針を提案することで、その後の予後・症状の改善につながることが考えられます。

DTRに関する先行研究と課題

こうしたDTRを対象とした最適なパターンの導出に関する研究の多くは、統計学の分野にて報告されています。これらの手法の大部分は、無作為化臨床試験のデータを用いて、複数段階の意思決定に関して、動的計画法による解析をおこなっています。つまり、事前に把握された意思決定段階を遡って解析し、導出された状態遷移に基づいて、最適な逐次的意思決定ルール（方策）を推定します。各段階では、Q-learningを用いた価値関数に対するパラメトリックな予測モデルやOutcome Weighted Learning (OWL)による決定方針を直接モデル化するための分類モデルが提案されています。

一方、こうした研究では、無作為化対照試験を前提に提案され、低次元空間—基本的には二次元空間—で構成されるため、動的な医療レジメンのような、高次元空間をあつかうモデルとして、不適切である可能性が考えられます。DTRでは、個々の症例における変動率が高いことから、患者間の意思決定プロセスの不均質性が高く、低次元空間で表現された行動・状態では、治療の選択肢に関する高次元データ（i.e. 電子カルテ・レジストリデータ）へ適用することが困難である、と予測されます。統計的手法では、こうしたデータの高次元性に対応するために、説明変数をある程度単純化して解析をおこなう必要があり、データ要素間の相互作用といった複数要因が関連し合うケースを適切に解析することが困難であるとされています。特に、意思決定のような複雑なプロセスの場合、複数の要因が互いに絡み合っていることが予測されるため、こうした単純化では最適なDTRにはならない可能性が高いことが想定されます。こうした背景から、意思決定に課題に対して、強化学習の導入が考えられますが、マルコフ決定過程（Markov determinant process: MDP）のような単純モデルでは、多くのDTR問題に対応できない可能性があります。本研究では、Deep-Q-Neural network（DQN）などをはじめとする、深層学習と強化学習の組み合わせた深層強化学習に注目し、Q-learning など、従来の強化学習で処理が困難な膨大な数の状態・行動空間での解析を実現し、専門家の意思決定に近い支援システムの構築を目指しています。

研究目的

本研究では、先行研究の課題である、意思決定モデルにおける状態・行動空間の低次元性を解消するため、深層強化学習を導入し、個人に合わせたDTRに関する逐次的な意思決定フレームワークの開発を目的としています。前述のように、先行研究では、無作為化対象試験を主な対象としたモデルを提案しているため、個々の症例に合わせた治療方針の決定といった高次元かつ複雑な空間を扱う意思決定モデルには適していないことが推察されます。そのため、本論文では、医療登録データに基づくデータ駆動型の逐次的な意思決定支援を提供するため、深層強化学習に基づくフレームワークを提案します。より具体的には、高次元性のある行動・状態空間をモデル化するため、レジストリデータの収集データの設計に基づき、離散時間モデルを構築し、データセットの高次元性に対応しています。

手法

データセット

1972年から収集された、造血細胞移植（HCT）を受けた患者の転帰データに関するデータセットを用いて解析をおこなっています。このデータは、HCT後の一般的な合併症である、GVHD（Graft Versus Host Disease）—ドナーの免疫細胞によって引き起こされる免疫学的損傷—の予防と治療を対象としています。GVHDは、移植後6ヶ月以内に発症し、比較的短期間で治癒することの多い急性症例と、移植直後から数年後までに発症し、長期的な合併症や疾患を引き起こす慢性症例があるため、治療方針もこうした特性に基づいて決定する必要があります。データセットには、1995年から2007年の間にHCTを受けた急性骨髄性白血病（AML）と診断患者6021人が含まれ、移植後100日目、6カ月目、12カ月目、2年目、4年目などの標準的なフォローアップデータを用いています。

また、各フォームが記録された時点にて、強化学習における状態遷移の状態・行動を定義しています。具体的には、再発・死亡：収束状態、急性GVHD・慢性GVHDの発生：一過性の状態、として定義しています。また、治療方針に関する行動として、移植時に適用される初期治療（化学療法治療）とGVHD予防薬（GVHDを防ぐドナー細胞に対する免疫抑制）、急性・慢性GVHDへの治療薬、の3つから構成されます。

DTRにおける状態遷移の構築

本研究での状態遷移モデルは、以下のように定義しています：移植時をt = 0，100日後をt = 1，6ヶ月後をt = 2，1年後をt = 3，2年後をt = 4，4年後をt = 5。また、DTRにおける、3つのタスク—初期状態（再発防止を目的とする化学療法）、GVHD予防を含めた移植後の初期治療、急性・慢性GVHDの治療—に対して、深層強化学習を適用しています。初期の予防治療は移植時t＝0、急性GVHDの治療はt＝1（100日）とt＝2（6ヶ月）、慢性GVHDの治療はt＝2（6ヶ月）からt＝5（4年）、の時点でおこなわれました。

最初に、専門家の地方方針に関する分布を予測するため、教師付き学習ネットワークを構築しています。提案手法では、ベースラインの情報から、移植時の初期状態における治療方針とGVHD予防の分布を予測し、時間変化を考慮し、100日後と6ヶ月後の急性GVHDに対する治療の分布、移植後2年までの慢性GVHDに対する治療の分布を予測しています。

移植直後の場合、入力（状態）は、患者の基本情報（i.e. 年齢、性別、合併症の有無）と、患者とドナーの遺伝子マッチング情報で、出力（行動）は、初期治療における薬の組み合わせで、病気の再発防止およびGVHD予防薬を設定しています。t＝1およびt＝2における急性GVHDの治療では、入力（状態）として、基本情報・ペアリング条件、急性GVHDの有無を、出力（行動）には、急性GVHDの治療に利用する薬の組み合わせ、を定めています。t = 2からt = 5までの慢性GVHDの治療にも、同様の状態・行動が適用されます。また、行動空間の高次元性を解消するため、使用された薬の組み合わせから、行動を符号化し、選択可能な行動数を約270個に削減しています。また，オートエンコーダーを用いた、状態空間の次元数を削減した特徴量抽出により、学習の収束を加速し、過学習を緩和させています。次に、専門家の行動において、治療法の選択肢の中から最も遷移確率の高い価値関数を推定します。対象とする価値関数は、最も高い確率を持つ行動のみを評価します—状態遷移確率の低い行動は、サンプル数が少なく一般性にかける、また、対象を絞ることで計算量を削減する、ことが理由です。報酬関数には、最適な治療を受けた場合の将来的な期待報酬のQ関数を対象とし、Q-learningにより推定を実施します。

本論文では、提案手法の予備的な実装を，単純化されたヒューリスティックな報酬でシミュレーションをおこなっています。単純化された報酬を含めた設定は下記の通りです。各患者iについて、終末状態（死亡、再発、4年後の無再発生存）、または、データが失われた時tiでの遅延報酬は、以下のカテゴリーに分類しています：無再発生存率およびGVHD生存率なし；急性GVHDまたは慢性GVHDを伴う生存；白血病疾患の再発；死亡；データ損失。この5つのケースに対して、異なる遅延報酬を割り当てます。再発なし、GVHDなしの4年間の生存：1.0の報酬；急性・慢性GVHD：0.8の報酬；再発：0.2の報酬；死亡：報酬ゼロ。また、初期条件（化学療法とGVHDの予防）、急性・GVHDの治療のDTRに対して、3つの別々のDeep neural Network（DNN）を設定し、学習をおこなっています。タイムスタンプtにおけるDNNに対し、状態を入力、専門家による決定を行動として定めています。オートエンコーダーにより、入力の状態空間における高次元性を削減し、出力される予測値は、行動に対する期待リターンとしています。

結果

専門家の行動に対する予測精度

慢性GVHDに対する専門家の行動を予測した結果（図2）、時間t=2〜5における予測精度トップ5と、個々の予測精度が十分に高く、時間の経過とともに上昇していることが確認されました。また、オートエンコーダーと行動に対するクラスタリングにより、状態と行動空間の次元数が削減されていることも確認されました。状態空間の次元は、数十から6に減少し、行動空間は17次元の二値ベクトルから270の薬の組み合わせに減少しています。

慢性GVHD治療のための深層強化学習によるDTRフレームワークの有効性

この評価では、価値関数の観点に基づき、提案手法と無作為な行動選択のアプローチにおける比較し、提案手法の性能を明確化する目的でおこなっています。

評価結果（図３）から、深層強化学習を用いた提案フレームワークは、複数の時間ステップにおいて、ランダムな行動選択よりも価値が向上していたことが確認されました：最大で21.4%の価値向上を実現されています。

考察

本研究は、急性・慢性GVHDを持つ対象者を長期間追跡した医療観察データに基づき、深層強化学習を用いた体系的なフレームワークを提案しています。これらの疾患における治療選択に関する意思決定では、専門家による意思決定モデルの構築が求められていたものの、膨大な状態及び行動など、従来のQ関数では処理が困難な複雑かつ高次元な空間を扱う必要がありました。提案手法は、深層強化学習を導入することにより、こうした高次元性を適切に処理することを目指しています。結果として、専門家による治療決定を高い精度で予測し、また、従来手法よりも価値が向上していることが確認されました。提案手法により、患者の長期的なアウトカムに対する最適化を通した意思決定支援により、専門家の行動を改善できる可能性が期待されます。

本研究の対象疾患である、白血病は、逐次的な意思決定に関する他の問題—移植・無移植の選択、移植の最適な時期—が存在し、これらへの適用も検討されます。白血病の特徴として、死亡率が高い患者に対して無作為化試験への参加が現実的に困難、治療費が高額、検出力を高める十分なサンプルのリクルートが困難、といった課題があるため、提案手法の導入により、こうした新規データを収集するコストを削減できることが想定されます。

一方、課題として、モデル構築に必要な計算コスト—計算量・計算時間—や、実際の導入における課題—実際の判断は患者や医師に委ねられる—があります。特にQ-learningなどの従来手法では処理困難な高次元性を考慮できる一方、処理するべき計算量が膨大になる傾向が強まることが考えられます。こうした課題に対しては、CNNによる畳み込み処理による計算量の削減、専門家の行動から報酬関数を学習する逆強化学習による報酬関数の推定、マルコフ決定過程（MDP）の導入による計算量の削減、などが代案として考えられます。