AIが予後改善の行動変容を起こす！？強化学習を用いた、最適な介入方針の導出モデルの提案！

medical 2022年04月07日

3つの要点
✔️ 糖尿病・がんなどをはじめとする慢性疾患では、健康に関連する不適切な行動・習慣が発症・重症化に深く関与していると考えられている
✔️ 本研究では、効果学習に基づき、予後改善のための行動変容を目的とし、個人特性を考慮した介入方針の導出手法を提案する
✔️ その結果、提案モデルは、標準的な強化学習アルゴリズムより、優れた性能を示していることが確認された

A reinforcement learning based algorithm for personalization of digital, just-in-time, adaptive interventions
written by Suat Gönül, Tuncay Namlı, Ahmet Coşar, İsmail Hakkı Toroslu
(Submitted on May 2021)
Comments: Artif Intell Med.

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

強化学習により、予後を改善する行動変容を促進させることは可能か？

本研究では、強化学習に基づき、糖尿病をはじめとする慢性疾患の予防・治療を促す行動を促進させる、適切な介入を導出するモデルの構築、を目指す。

近年、不健康な行動と慢性疾患での関連が指摘され、個人特有のライフスタイル・優先事項、心理的・心理社会的な背景、環境要因などを考慮することが求められている—特に、慢性疾患では、長期的な病態変化および発症後の改善が困難になることから、個人特性に合わせた治療・予防法の導入が重要である。こうした中、デジタル端末を活用した介入は，人々の自己管理活動の支援に効果的であるとされ、注目を集めている：近年、発展が著しい、モバイルセンサ・ヘルスセンサ—装着型、埋め込み型、消化器型—により、必要なときに、適応的な介入を瞬時に行う手段が普及しつつある。こうした背景から、JITAI—Just-in-time adaptive intervention—という概念が提唱され、決定点や介入オプションなどの多くの構成要素を介した瞬間的な介入方法に関する研究が進められている。

この研究では、長期的および瞬間的な変化を考慮して、個人化された介入方針を学習するアルゴリズムの構築をおこなうことを目指す—こうしたモデルの構築により現実のケアプログラムに関連して、介入の負担を低減することで、アドヒアランスを最大化し、最終的にはより良い臨床結果を達成することを目的とする。また、本研究では、慢性疾患を想定し、JITAIを個人化するため、強化学習—RL—アルゴリズムを導入する。RLでは、学習するための初期データセットを必要としないため、不確実な要素を考慮する状況での学習に適切が高い、と考えられる；一方、初期データセットが全くない環境では学習に膨大なコスト—時間・計算量—が必要となることが多い；そのため、本研究では、状態空間が探索されていない場合でも、個人化された方針を迅速に学習し、許容できる結果を得るアルゴリズムを考案する—患者の瞬間的・長期的な変化に基づき、介入戦略を動的かつ体系的に適応させるモデルの提案をおこなう。

手法

ここでは、今回用いた提案モデルの概要について説明する。提案モデルでは、二つのRLモデル—opportune-moment-identification・intervention-selection—を用いている。

アルゴリズム全体

本アプローチは大きく 2 つのステップで構成されている—下図参照。

最初のステップである訓練フェーズでは、未知の状態—以前に訪問していない状態—でのランダムアクションの数を減らせるよう、使用する状態分類器を訓練する。また提案モデルには、同時に実行される2つのRLモデルが含まれている—下図参照：具体的には、opportunity-moment-identificationモデルが、瞬間的な変化を監視し、それに応じてアクションを起こす—この段階では、状態分類器が利用できないため、選択的資格トレース法のみを利用する；一方、intervention-selectionモデルは、患者個人の習慣的な変化を監視する。学習段階の結果、状態分類器は実際の実験に利用できるようになり、機会識別モデルはこの技術を利用して学習プロセスをさらに向上させることができる。

アルゴリズム全体の流れは下記のようになる：

1. 使用される特定のデータ要素から、入力をおこなう—最初の4入力はRL環境の主要な構成要素—環境とエージェントに関する入力—である：環境要素は、現在の状態と遷移の履歴を記録し、行動計画では、その人の日々の計画的な活動が含まれる。ここで、共通政策—Common Policy：CP—は状態とともに行動の選択回数の蓄積を含み、状態分類器—Selective Classifier—は未知の状態での行動を予測するために用いられる学習済みモデルである。

2. ある介入タイプが選択された場合にのみ，Opportunity-moment-identificationモデルが実行される—最初は，Greedyアルゴリズムに基づき、現在の状態—omi_st—に基づいてアクション—omi_at—を決定する；一方、学習アルゴリズムは、未知の状態に対するランダム行動を選択する場合に、状態分類をおこなう；それ以外は、Greedy アルゴリズムを利用し、q値が最も高い行動を選択する。行動選択後、環境は選択された行動により現在の状態から次の状態へ遷移する。

3. 次に、2 つのシミュレーションをおこなう：介入が行われた場合、行われた介入に対する反応をシミュレートする—結果は、介入を捨てるか、介入に関与するかのどちらか；2番目では、目標とする行動を実行する。

4. 行われる行動に対する報酬—omi_rt—を得たあと、エピソード分析オブジェクトに遷移を記録する。選択された各介入について、アクションプランの計画アクティビティに関連するすべての時間枠をOpportunity-moment-identificationモデルが実行する。

5. 習慣形成モデル—患者における習慣をシミュレートするための数学的なモデル、詳細は割愛—を1ステップ進め、介入選択モデルに戻る。習慣形成モデルの更新されたパラメータを用いて介入選択モデルの次ステップを取得し、報酬が生成される。このループは行動計画によって生成されたすべての時間枠に対して繰り返される。エピソードが終了すると、そのエピソードについて収集されたデータで更新される。

opportunity-moment-identificationモデル

ここでは、提案モデルに採用されているRLモデルの一種、opportunity-moment-identificationモデルの概要について述べる—下図参照。

上図は、このモデルでの、環境とエージェントの相互作用の様子を示す：aiは環境が状態siにあるときにとった行動；riはaiに対して受け取った報酬。アルゴリズムは、介入タイミング・瞬間・識別モデルの各決定点について、行動が実行されるか、または、人が介入に関与するまで、各ステップで介入するか否か、を決定する。モバイル端末より、配信された介入への反応が遅れた場合、適切な介入タイミングであれば、過去におこなわれた行動に対して、報酬を与える必要がある。本研究では、エージェントの過去状態-行動への報酬でなく、関与した介入を伴う行動にのみ正の報酬を与える—加えて、介入前の行動がDeliver_Nothing—介入しても行動が実践されなかったケース—であってもDeliver_Action—介入により行動が実践されたケース—を想定して学習をおこなう：例えば、上図において、a7はDeliver_Nothingの行動であるが、介入への好機であるため、Deliver_Interventionアクションが取られたものとして修正する—これにより、s7を訪れた際にDelivery_Interventionアクションを取る方針が有効となり、介入行動をおこなうようになる。

結果

このセクションでは、評価環境・結果について解説する。

評価環境

ここでは、シミュレーションによる検証法について述べる。

評価において、アクションプランおよびペルソナ—行動変容における典型例—の二つの視点から、環境設定をおこなう：アクションプランでは、2種類のリマインダーと1種類の動機付けのための介入を送ることができる3つの事前定義された決定点（朝、昼、夕）を持つ単純なアクションプランを想定する；ペルソナでは、4人のペルソナを想定し、4つの特徴を検討する：

1. 習慣化
外部からのシグナルなしに、目標とする行動を自動的におこなう強さを示す—習慣に関連する概念を現実的にシミュレートするために、習慣形成モデルを活用する。このモデルの特徴として、コミットメント強度がある：これは、行動を習慣化するために必要な時間の指標である。このパラメータは 0 と 1 の間の値を取り、値が大きいほど対象行動を高く評価し、より強く欲していることを示す

2. 日常的な行動
日常的な活動は個人によって異なる。そこで、起床から就寝までの1日の行動をすべて表す活動タイムラインを導入する—その目的は、介入に適した状態・アクションプランをおこなうのに適した状態をシミュレートする、ことである。タイムラインは事前定義された活動を入力し、学習エピソードごと—模擬的な一日ごと—に各人に半ランダムに割り当てられる。

3. 提供された介入に対する反応のシミュレーション
介入への反応として、2つの前提条件を設定している：対象者は特定タイプの介入を好む；日常活動は介入の実践に適している。そのため、介入に関する個人の嗜好を、介入に反応する確率として表現する—介入タイプに対する嗜好は不連続で、確率和は必ずしも1にはならない。

4. 実際の行動記録のシミュレーション
行動記録は、習慣形成モデルによる行動の記憶に関する予測と、行動を実行するための日常活動の適合性によって決定される：予測が正なら、対応する活動時間内でその行動を行うと仮定する。

RLモデルの比較

ここでは、エピソードごとに集計された報酬を対象に、RLアルゴリズムの比較をおこなっている。対象となるRLは下記の３つである—Q-Learning—QL—、選択的適格性—介入に対する行動の選択の指向性—で拡張したアルゴリズム—QL-SET—、選択的適格性・転移学習で拡張したアルゴリズム—QL-SET-TL。評価結果から、QL-SET-TLがより多くの報酬を集めていた—送信された介入数の合計に対する実際におこなわれた介入数の比率を考慮すると、QL-SET-TLがよりも効果的であることを示唆している。漸近的性能に関しては，QL-SET-TLは他の2つよりも高い値となった。この結果から、提案モデルであるQL-SET-TLが最も高い性能を発揮していることが確認された。

考察

本研究では、RLアルゴリズムに基づき、介入のタイミング・頻度・種類に関して、個人特性に特化した最適な方針の導出をおこなうモデルの構築を目指す—このアルゴリズムは，2つのRLモデルを用いてこれらパラメータを最適化する。適格性に関する探索では、過去の行動の選択的報酬と、介入に関与するための状態の適合性を考慮した行動の軌跡の操作をおこなった。評価では、日常活動、特定の介入タイプに対する嗜好、対象となる健康関連行動に対する態度に違いがある4人をシミュレートし、標準的なRLアルゴリズムと比較して、より高い性能を示した。本モデルにより、将来的には、糖尿病患者の日常生活を支援する自己管理支援システムの開発を加速させることができる、と考えられる。また、ヘルスケア領域では、提案するアプローチがケアプログラムの改善につながる可能性が高いことが挙げられる。身体活動やダイエットのような健康的な生活習慣は、多くの慢性疾患の発症リスクを低減し、既存疾患の改善も可能になる、ことも報告されている—したがって、提案モデルは、行動変容プログラムの有効性を向上させ、個人に合わせた介入提供戦略によって人々の健康に貢献することができると考えられる。

本研究の強みとして、RLの手法で人の瞬間・長期の行動経過をモデル化し、タイプ・頻度・タイミングをパーソナライズする学習機構がある。現段階において、行動変容に対するRLモデルを複数組み合わせた手法は報告されていない。また、医療データの特性として長期的な時系列データ解析があるため、短期的な視点だけでなく、長期的な視点を考慮したモデルを構築していることも強みとして考えられる。　

また課題として、介入タイプの選択などに対する改善がある：本モデルでは、モデルフリーなアプローチに従っているが，介入選択モデルはモデルベースシステムとして設計できる—これにより、行動を起こす前に、中間シミュレーションによって価値関数を学習することができ、より高い精度を達成することができる、可能性がある。このような構造を実現するには、介入選択モデルを2モデルに分割し、種類と頻度の要因を別々に調整することが考えられる。また、今回のモデルで考慮したパラメータが十分でない可能性も検討される—環境、携帯電話、患者に関する追加パラメータを用いることで、より精度の高いモデルを構築できることが想定される。このような改善においては、アルゴリズムのさらなる最適化—例えば、より良い状態の汎化—が必要となり、将来的な課題として考えられる。