不確実な要因を考慮した副作用は防止できる？ベイズと強化学習を組み合わせたシステムの提案！

強化学習 2022年01月21日

3つの要点
✔️ 薬物療法の有効性と安全性の向上を目的として、治療薬・バイオマーカーのモニタリングを活用した、Model-informed precision dosing—MIPD—に注目
✔️ ベイズデータ同化—DA—、および、強化学習—RL—を組み合わせた新しいMIPDのアプローチを提案
✔️ RLでの報酬関数を活用し、投与量決定の患者要因を特定できることも示された

Reinforcement learning and Bayesian data assimilation for model‐informed precision dosing in oncology
written by Corinna Maier, Niklas Hartung, Charlotte Kloft, Wilhelm Huisinga, Jana de Wiljes
(Submitted on 7 Mar 2021)
Comments: CPT Pharmacometrics Syst Pharmacol.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

不確実性を持つ個人特性に応じて、副作用を予防しつつ、治療効果を上げることは可能か？

本研究では、Model-informed precision dosing—MIPD—を対象として、ベイズモデル、および、強化学習をベースとした、不確実な個人特性を考慮した医薬品の最適な用量・治療方針の導出を目的としています。

個々の状態に応じて、薬剤などを最適な用量で提供するパーソナライズド・ドージングは、不要な副作用の効果を低減させ、医薬品の安全性と有効性を向上させることが期待されます—副作用の発現、および、治療効果は、個人ごとに異なり、また、薬効範囲をはじめとする、不確実性を伴っています。こうした副作用の一つに、がん治療における、好中球減少が存在します：投薬治療により、免疫細胞が抑制されることで感染症への罹患率が上昇する症状です。この副作用により、肺炎・インフルエンザをはじめとする、疾患の発症率が向上し、将来的な予後が悪化する可能性が高まります；そのため、投薬による副作用を防止しつつ、医薬品の効果を妨げない、最適な用量の導出が求められています。

本研究では、こうした課題に対し、好中球減少症のコントロールを目的として、ベイズデータ同化—DA—、および、強化学習—RL—を用いた3種類のアプローチを提案しています：ベイズデータ同化を活用したアプローチ—DA-guided dosing—；強化学習を活用したアプローチ—RL-guided dosing—；ベイズおよび強化学習を組み合わせたアプローチ—DA-RL-guided—。こうした手法により、不確実性を伴う個人特性を考慮し、がん治療における副作用—好中球減少—を抑えつつ、治療効果の高い服薬方針の導出を目指しています。

Model-informed precision dosing—MIPD—とは？

まず初めに、本研究に活用されている、Model-informed precision dosing—MIPD—について簡単に解説します。

MIPDは、薬物-疾患-患者システム、関連する変動に関する事前知識—非線形混合効果分析など—、患者固有の治療薬／バイオマーカー監視—therapeutic drug/biomarker monitoring：TDM—データを考慮し、投与量に関する個別化のアプローチを明確化するために活用されます。一般に、最大事後推定—maximum a posteriori ：MAP—に基づき、個々のモデルパラメータにおける推論に活用されます。MAPで導出された結果は、効用関数または次の投与量を決定するための目標濃度について評価されます—MAP-guided dosing—；しかし、多くの治療法は、治療域以下や毒性域が認知されているため、こうした不確実性を考慮した、目標濃度や効用関数の定義が困難である課題が指摘されていました：治療域の場合、偏った点推定値が使用され、範囲外の不確実性が無視されるため、MAPによる予測が不適切なである課題がこれまでの研究にて指摘されています。本研究では、ベイズモデルおよび強化学習を組み合わせることで、こうした不確実性を伴う個人特性を考慮した手法の開発を目指しています。

好中球減少とは？

ここでは、本研究で評価対象としている、好中球減少について解説します。

好中球減少は、抗がん化学療法における副作用で、免疫細胞の一種、好中球が減少する症状です：重度の好中球減少では、好中球の顆粒球の減少により、免疫機能が正常に働かなくなり、生命を脅かすような感染症への罹患率が向上します。好中球の最低濃度—nadir：ナディア—に応じて、好中球減少のグレードgは、下記のように分類されています—好中球減少なし（g=0）から生命を脅かす（g=4）のグレード。また、好中球減少症は、服薬用量の有効性—中央値［全生存期間］—の代替指標として活用できます；そのため、好中球濃度は、好中球減少を引き起こす化学療法剤の投与量、および、治療方針を導出するためのバイオマーカーとして使われます。

研究目的

本研究では、がん治療の副作用の一種—好中球減少—の防止、および、症状に応じた適切な服薬用量の導出をおこなうシステムの開発を目指しています。具体的には、ベイズを活用したデータ同化—DA—、および、強化学習—RL—をベースとして、3モデルを提案しています：DA-guided dosing；RL-guided dosing；DA-RL-guided。１番目の手法—DA-guided dosing—は、ベイズモデルを活用し、不確実性を持つパラメータを考慮することで、より正確な投与計画の導出し、既存のオンラインMIPDを改善することを目指します；２番目の手法—RL-guided dosing—は、モンテカルロ木探索—MCTS—と上方信頼境界—Upper Confidence Tree：UCT—を組み合わせ、学習戦略の改善を目的としています；3番目の手法—DA-RL-guided—は、DA・RLを組み合わせ、TDM—治療薬／バイオマーカー監視—データを活用し、不確実性を持つ個人特性の考慮、また、報酬関数などからの解釈可能性を向上させることが目的です。評価では、これらの手法において、投与パフォーマンスと投与量選択の要因への解釈を念頭に、既存手法と比較をおこなっています。

手法

このセクションでは、提案手法—DA-guided dosing；RL-guided dosing；DA-RL-guided—について述べます。

想定環境

本研究では、想定環境として、パクリタキセル—抗癌治療薬の一種—による化学療法の投薬計画を考えています：1サイクル𝑐=1,⋯,𝐶—合計6サイクル（𝐶=6）—の3週間ごとの単回投与スケジュールを考えます。投与量選択のために、医師は患者に関する様々な情報源—共変量cov：性別、年齢など；治療歴：薬剤、投与レジメンなど；PK/PDに関するTDMデータ：薬剤濃度、反応、毒性など—を利用します。このように複数の情報源がある一方、各タイムポイントでは、少数のノイズのある測定値しか得られないため、獲得される情報は部分的で不完全である、という課題があります；そのため、MIPDは、薬物-患者-疾患システムに関する事前情報と患者固有のTDMデータを結びつけています。

患者状態（下式）には、暴露における重要な予測因子である、共変量sex、age、また、薬効モデルのパラメータである絶対好中球数ANC0、過去のサイクルの好中球減少グレード𝑔から構成されています。

MIPDのフレームワーク

ここでは、解析対象である、MIPDに関して述べます。

本研究では、MIPDを臨床試験のNLME分析—非線形混合効果モデル—から得られた事前知識を基に構築しています。構造モデル・観察モデルは下記の通りです。

本研究での提案について、下記の３手法としてまとめます。

(i) オフラインアプローチは、事前に計算されたModel-informed dosing tables —MIDTs—、また、投与決定木に基づく投与量の個別化をサポートします。治療開始時に、患者の共変量とベースライン測定値に基づいた用量が推奨され、治療中、観測されたTDMデータは、

テーブル、ツリーの経路決定に使用されます。治療は患者に個別化—不確実性が考慮—されますが、投与量個別化の手順自体は変化しません；つまり、ツリーやテーブルは静的です

(ii) オンラインアプローチでは、患者のモデル状態・シミュレーション結果に基づき、推奨される投与量を決定します：個々のTDMデータをベイズやMAP—Maximum a posteriori—にて同化し、患者のモデル状態として、事後分布やMAP点推定を推論します。このアプローチでは、パラメータを患者に合わせて調整する一方、処理の困難さから、臨床的な現場への導入には、別途、情報技術インフラ・ソフトウェアが必要となります。

(iii) オフライン-オンラインアプローチは、投与決定木と個別化モデルの利点を組み合わせた手法です。このモデルは、強化学習の手法に、データ同化—DA—による事前状態の情報、および、不確実性を付加することで、より正確な個人特性を加味した精度の高いモデルを目指します。個別化モデルは、主に二つの目的で使用されます：まばらに観測されるTDMデータ—サンプリング—より、正確な状態の推測；投与決定ツリーの個別化。　

報酬関数

強化学習における報酬関数（下式）は、患者の有益・有害な効果の効用に対応していることが理想的です。本研究では、好中球減少症のグレード 1-4 に関連する長期目標—中央値［全生存］の増加—より、短期目標—生命を脅かすグレード 4 の回避—に大きなペナルティを課します。また、DAにより、定量化された個々の不確実性—目標範囲内外の確率—を考慮でき、より臨床現場に近いモデルを実現します。

RL-guided dosing

ここでは強化学習—RL—を活用した、投薬方針の導出手法について、述べます。

RLでは、対象とする課題を、不確実性の下での逐次的な意思決定をモデル化したマルコフ決定過程—MDP—として定式化します：確率的最適コントロールとして処理します。RLにおけるエージェント—仮想的な医師—の目的は、不確実なフィードバック環境—仮想患者—において、特定の長期期待収益—応答—の最適化を目的に、どのような行動−服薬投与—が最善か—戦略—を学習し、導出することです。

MDPは、状態𝑆𝑐、行動𝐷𝑐、報酬𝑅からなり、添字𝑐は時間—治療サイクル—を意味し、エピソードは可能性の木のパスに対応する。また、患者状態の遷移を遷移確率ℙ[𝑆𝑐+1=𝑠𝑐+1|𝑆𝑐=𝑠𝑐,𝐷𝑐+1=𝑑𝑐+1] で示し、不確実性を考慮することが可能です。報酬は報酬関数(すなわち、𝑅𝑐=𝑅(𝑆𝑐))によって決定され、投与政策𝜋が次の投与量をどう選択かをモデル化したものです（下式）。

このように、ポリシーは、仮想医師—エージェント—の行動・戦略を定義します。投与方針は、時間ステップ𝑐におけるリターン𝐺𝑐に基づいて評価され、残りの治療期間にわたる報酬の加重和として定義されます（下式）。割引係数𝛾∈[0,1] は、短期的な治療目標—𝛾→0—と長期的な治療目標—𝛾→1—を調整し、長期的な期待リターンqπの最大化を目的として設定します。

また、サンプリングに依存するモデルベースRLでは、サンプル近似によって期待値を推定するため、複数の変数—age、ANC0—を共変量クラスℭ𝔒𝔙𝑙，𝑙=1，⋯，𝐿に離散化させ、計算を容易化します。また、政策𝜋𝑘は下記のように定義されます（下式）。ここで，𝑁𝑘(𝑠,𝑑) は，最初の𝑘エピソードのうち患者状態𝑠で用量𝑑が選ばれた回数，𝐺(𝑘)𝑐=𝑟(𝑘)𝑐+1+𝛾𝑟(𝑘)𝑐+2+⋯ を示します。

exploitation—高いリターンが分かっている投与量を選択—とexploration—より高いリターンの可能性のある新しい投与量を選択—のトレードオフについて、先行研究から、Monte Carlo tree search—MCTS—と、upper confidence bound applied to trees—UCT—を併用しています。方針を収束させるために、最終な方針は、𝜋∗=argmax𝑞̂ 𝜋UCT—𝜀𝑐=0：探索なし—となります。

DA-guided dosing

このセクションでは、ベイズを用いたデータ同化—DA—による、投与計画の導出手法について、解説します。この手法は、治療結果の偏りのない予測と、解析対象となるパラメータ—好中球減少のグレード—での包括的な不確実性の定量化を目指します—MAPベースのアプローチよりも、より多くの情報量を考慮できます。患者の不確実性を推論し、予測される治療時間に付加することで、発生する結果の確率を予測します：このために、個々のモデルパラメータの不確実性をベイズモデルを活用し逐次更新します。

事後分布に関しては、サンプリング近似を活用しています—サンプリングによる近似した値が患者状態を示し、重み係数ωによって、発生する頻度を定義しています。このモデルは、治療効果未満、および、毒性範囲—非常に低い、または、高い薬剤/バイオマーカー濃度—を事後分布で示すことができ、これらの不確実性を考慮できる利点があります：本研究では、最適用量について、目標範囲を外れる加重リスクを最小化する用量—𝑔𝑐=0 、𝑔𝑐=4 の事後確率—として導出します（下式）。グレード4は副作用の発生範囲であるため、より大きなペナルティを付加します。

DA-RL-guided dosing

ここでは、DA-guided と RL-guided を組み合わせた手法—DA-RL-guided dosing—について解説します。

この手法では、DAによって個別化された不確実性をRL内に統合し、下記の利点を実現します：平滑化された期待値の活用；個人ベースの不確実性の考慮。前者については、観測グレード—特定の日の好中球濃度の測定値—ではなく、対象量—予測された直下濃度—について平滑化した事後期待値を使用できる点が挙げられます；そのため、測定ノイズの影響やサンプリング日時への依存を軽減できます。後者については、RL スキーム内のモデルシミュレーションにおいて，事後確率 𝑝(𝜃|𝑦1:𝑐) からサンプリング可能な点が挙げられます—つまり、集団ベースではなく、個人ベースの不確実性からサンプリング可能です。

また、DA-guidedではリアルタイム（オンライン）で実行することから、計算量削減のため、解析対象を絞り込みます：すべての状態の組み合わせではなく、残りの治療に関連性があるものだけ対象にします。また、行動価値関数を一からでなく、TDMデータより前にRL方式で決定される事前分布として𝑞𝜋0:=𝑞ˆ𝜋UCTにより推定します—exploitation-explorationのトレードオフの調整パラメータ𝜀𝑐は、先験的に期待される長期リターンが高い線量を優先するよう設定されます。

結果

このセクションでは、3種類の提案手法—DA-guided dosing；RL-guided dosing；DA-RL-guided—について、個人特性を考慮した服薬方針を導出し、予後に対する影響について、先行研究と比較して、評価をおこないます。

グレード4およびグレード0の好中球減少

ここでは、がん治療の副作用—好中球減少—を対象に、先行研究、および、提案手法による投与方針を評価します：具体的には、パクリタキセルを用いた化学療法におけるTDMデータに基づき、MIPDについて提案手法と既存手法を比較します。

本評価のデザインは先行研究―CEPAC-TDM研究—に対応させ、各サイクルの0日目と15日目の好中球数は、パクリタキセル—抗がん治療における治療薬—による累積好中球減少の薬物動態／薬力学—PK/PD—モデルを使用しています。各3週間の6サイクルにわたる好中球濃度の予測値（下図）—中央値および90％信頼区間（CI）—から、好中球の上昇時、濃度は目標範囲内—グレード1〜3、黒い水平線の間—に収まっていることがわかります。この結果から、PKガイド投与は、標準投与と同程度にナディア濃度—最低好中球濃度—の低下を防いでいることがわかります。

RL-guidedでは、好中球濃度がサイクル間で良好に制御され、全集団のナディア濃度の分布は目標範囲内に集中していました（下図）；DA guidedでは、直下濃度が目標範囲に着実に誘導され、その結果、分散—結果のばらつき—が減少しています；また、DA-RL-guided dosingでも、ナディア濃度は目標範囲に移動し、ばらつきが減少しています

一方、グレード０、および、グレード4については、各手法ごとに異なる解釈が得られています：PK-guided では、グレード0の発生が増加しました（下図）；DA-guidedでは、グレード0と4の発生は、後半のサイクルにて減少しています—個人別の不確実性の定量化が結果のばらつきの減少に寄与しています；RL-guidedでは、グレード0および4の好中球減少症の発生は、標準投与および、DA-guidedと比較し、減少していました；MAP投与では、グレード4の好中球減少症の発現がサイクル経過とともに増加していました； DA-RL-guided dosingでは、DA-guided とほぼ同じ結果が得られました。

これらの結果から、DA-guidedおよびDA-RL-guided—不確実性を考慮した手法—は、ナディア濃度を目標範囲に収め、ばらつきを低減していました；一方、それ以外では、こうした傾向が確認されませんでした。

RLにおける長期期待リターンの調査

この評価では、RLにおける長期期待リターンの調査し、関連する共変量の同定を目的としています：RLでの行動価値関数—目的関数—について調査し、投与量の個別化に関連する共変数を特定できるか、を確認しています。

評価結果（下図）では、第1サイクルの用量選択について、共変量、性別、年齢、およびベースライン好中球数—ANC0—について層別し、RLガイド投薬の推定作用値関数を示しています。その結果、治療開始時において、曲線の急峻さ—投与量選択の頑健さ—から、ANC0が重要な特性であることがわかります—比較のため、PK-guidedアルゴリズムにおける第1サイクルの投与量選択は、性別と年齢のみを活用しています。

また、2回目の投与量選択では、最初のサイクルの好中球減少のグレード—g1—が最も大きな影響となりました；その一方、ANC0が大きいほど最適投与量が多くなることがわかります。

考察

本研究では、DAおよび/またはRLを用いた3手法を提案し、MIPDでの不確実性をともなった個人特性を考慮した、投薬方針の導出を目指しています。

具体的には、作用に由来する報酬—高用量に対するペナルティ—を導入し、また、好中球誘導型投与では毒性と有効性—生存期間中央値との関連—を同時に考慮します。投与量は、本来の薬効以外の副作用—末梢神経障害など—や、腫瘍反応、長期的な結果—全生存または無増悪生存など—、他の併用薬—抗がん剤配合剤など—も含みます。こうした点に対し、RLは、複数の副作用/有益な効果や投薬を学習対象として含めることができ、時間遅延、また、不確実性の伴う患者特性を考慮するのに適切です。

また、本研究では、強化学習にモンテカルロ決定木—MCTS—を新たに活用し、方針を導出しています。医療分野での先行研究の多くは、ε-greedy—ルックアップテーブルの一段階前の近似を用いた探索戦略—を採用し、単純な探索のみをおこなうアルゴリズムを活用していました；一方、本研究では、upper confidence bound applied to trees—UCT—を用いたMCTSを用い、リターンを評価する手法を活用しています；これにより、Q-learningなどのアルゴリズムで必要な分解—ベルマン方程式—を回避する近似計算が不要となり、計算量が削減されます。さらに、UCTによる探索は、服薬用量範囲から系統的なサンプリングによって、追加情報—患者個人の不確実性や事前情報—を含めることが可能です。こうした特徴は、実際の患者データに基づく解析をおこなった際、潜在的なモデルのバイアスを考慮できます：例えば、患者が投与勧告に従わない場合—off-policy learning—にも、患者データを交換せず学習できるため、診療所においてシステムを導入することも可能となります。

そのため、提案手法により、

(1) 臨床試験における奏功率を高める、

(2) 除外基準を緩和することで募集を容易にする、

(3) 承認後の継続的な学習を可能にし、長期的に治療成果を向上させる、

といったことが実現できると考えられます。

一方、課題として、下記の3点が挙げられます：RL処理における複雑性；臨床現場との差異；DA-guidedにおける処理能力。第一の課題として、特に、RLの決定木のような複雑なモデルでは、エージェントのナビゲート・記憶において、学習が困難になることが想定されます。そのため、臨床現場を考えた際、容易に使用可能なソフトウェアやダッシュボード—infliximabなど—を開発することが必要です。第二の課題は、パクリタキセル—抗がん治療薬—の投与量のみに着目している点です—脱落、非血液毒性による減量、アドヒアランス、およびコメディカルを考慮していません；そのため、グレード4の好中球減少症の発生率は、シミュレーションと臨床試験で異なる可能性があります。こうした課題には、臨床現場での実運用、もしくは、上記の要因を考慮したシミュレーションを追加的におこなう解決策が考えられます。第三に、DA-guidedにて、収束に多大な計算時間と計算量が必要となることが想定されます；そのため、時間または計算能力が制限されている場合、近似値の使用が必要です—残りのすべてのサイクルではなく、次のサイクルの投与量についてのみ解くことなどが考えられます。