メッセージで薬の量をコントロール！？強化学習を活用し、服薬アドヒアランス—治療のモチベーション—への影響を調査！

強化学習 2022年02月08日

3つの要点
✔️ 糖尿病に対する服薬治療の最適なコントロールは、生活における患者の自己管理行動—服薬アドヒアランスなど—が必要とされている。
✔️ 本研究では、強化学習を活用し、Ⅱ型糖尿病患者における、個人特性を考慮した、メッセージを導出する手法、および、その影響を調査する実証実験について述べている。
✔️ Randomized Controlled Trial(RCT)を活用した実証試験(REinforcement learning to Improve Non-adherence For diabetes treatments by Optimising Response and Customising Engagement (REINFORCE))を実施

REinforcement learning to improve non-adherence for diabetes treatments by Optimising Response and Customising Engagement (REINFORCE): study protocol of a pragmatic randomised trial
written by Julie C Lauffenburger, Elad Yom-Tov, Punam A Keller, Marie E McDonnell, Lily G Bessette, Constance P Fontanet, Ellen S Sears, Erin Kim, Kaitlin Hanken, J Joseph Buckley, Renee A Barlev, Nancy Haff, Niteesh K Choudhry
(Submitted on 3 Dec 2021)
Comments: BMJ Open.

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

強化学習により、行動変容を促すことは可能なのか？

本研究は、Ⅱ型糖尿病患者に対する服薬アドヒアランス—服薬遵守をはじめとする、治療を促す患者の行動—の効果を向上させる目的として、強化学習を活用し、個人特性を考慮した最適なメッセージの導出手法を提案し実証試験をおこなっています。

糖尿病を最適な形でコントロールするには、日々の自己管理行動—特に服薬アドヒアランス—が必要とされています。アドヒアランスをサポートするためにテキストメッセージが有効であることが先行研究より示されていますが、より高い効果を実現するために課題があります：その1つは、メッセージの内容が一般的であり、患者によっては行動変容を促す効果が弱いことです；一方、強化学習はエージェント・環境をもとに、これらの相互作用—エージェントの行動選択、および、環境からのフィードバックによる更新—を用いて、個人特性に応じた最適化をおこなうことが可能です。こうした強化学習を活用した事例は、動的レジームなどで報告されてきたものの、服薬アドヒアランスの効果向上を目的とした応用事例は、あまり示唆されていませんでした。

本研究では、強化学習をベースとし個人に最適化されたテキストメッセージングの導出手法の提案、また、Ⅱ型糖尿病患者の服薬アドヒアランスに対する影響の検証を目指しています：具体的には、メッセージの導出プログラムの開発、および、実証試験—REinforcement learning to Improve Non-adherence For diabetes treatments by Optimising Response and Customising Engagement (REINFORCE) —、をおこなっています。本研究の特徴は下記の通りです：

(1)血糖コントロール不良のⅡ型糖尿病を対象とした、ランダム化比較試験—RCT—を導入し、頑健性、および、信頼性を担保

(2)内的妥当性と一般性を最大化するようにデザインされ、また、周期的にデータ収集

(3)6ヶ月間のフォローアップをおこない、長期の服薬状況、および、臨床的アウトカム—血糖コントロールなど—の両方を検証

服薬アドヒアランスとは？

ここでは、本研究で扱っている、服薬アドヒアランスについて簡単に解説します。

アドヒアランスとは、患者自らが治療方針の決定に参加し、それに従って治療を受ける、ことを指します—特に、服薬アドヒアランスは、服薬に関する治療方針を患者が主体的に実行することです。従来、医療関係者では、固定的なコンプライアンス概念—医療者の指示に患者がどの程度従うか—に基づいて、患者を評価していました；そのため、ノンコンプライアンス—医薬品の服用を規則正しく守らない問題—は、患者側にあるといった考えのもとで進められてきました。一方、医療現場では、コンプライアンス概念で説明できない治療成功への壁が存在することが指摘され、患者自身の治療への積極的な参加—執着心：adherence—が治療成功の鍵ではないかとの報告が増加してきました：つまり、患者は治療に従順であるべき、から脱する必要性が訴えられてきました。現在では、こうした患者主体のアドヒアランスが積極的に導入されています：具体的には、服薬アドヒアランスのために、治療法が患者にとって実行可能か、服薬を妨げる因子は何か、それを解決するためには必要なものは何か、などを医療者とともに考え、相談の上決定していく方針の導入が進んでいます。

Ⅱ型糖尿病とは？

ここでは、本研究の解析対象である、Ⅱ型糖尿病について、述べます。

糖尿病は、血管内の血糖値が高くなっている状態です。血糖値—血液内のグルコース糖・ブドウ糖の濃度—は、血液中にどれくらい糖が含まれているか、を示す指標であり、活動エネルギーとして使われ、食後に急上昇し、その後緩やかに正常値に戻ります。一方、耐糖異常などにより、血糖値が高い—血液中の糖が多い—状態が継続すると、血管障害—血壁の破壊、血栓の発生・破裂、など—が発生し、内臓や脳機能、血圧上昇などにより、臓器障害が発生します；特に毛細血管が多い臓器—腎臓・脳・肝臓—や大きな血管が通る臓器—心臓など—に対する障害の発生率が急増します。こうした血糖値の高い状態が血糖異常—糖尿病—です。

糖尿病は、主に2つの要因を持ちます：膵臓の機能低下により、細胞に糖を取り込むインスリンの分泌量が低下する、インスリン分泌低下—Ⅰ型糖尿病—；細胞内に糖を取り込むための扉がうまく開かない、インスリン抵抗性—Ⅱ型糖尿病—。インスリンは、細胞内に糖を取り込むためのいわゆる「扉の鍵」です：Ⅰ型の場合、インスリン—細胞に吸収されるための鍵—の生産量が低下し、血管内の糖濃度が上昇します。原因として、膵臓のインスリン分泌量の低下が考えられ、遺伝などが原因とされています；一方、Ⅱ型の場合、過剰な血糖上昇により、細胞側の許容量を超え、細胞の扉を開ける鍵—インスリン—が正常に機能しなくなります。要因として、過食・肥満といった生活習慣に起因するケースが多く、現代では、一般にⅡ型糖尿病を糖尿病として指します。こうした、糖尿病のコントロールには、日常生活における自己管理行動—身体活動や健康体重の維持など—が必要と言われています；特に、血糖値をコントロールする薬—インスリンなど—の服薬遵守が重視されています。

研究目的

本研究では、こうしたⅡ型糖尿病における服薬アドヒアランスの効果向上を目的として、強化学習を活用した個人に最適化されたメッセージを導出するシステムの開発・実証を目指しています。

服薬アドヒアランスでは、リマインダーメッセージをはじめとするテキストメッセージを用いることで、患者の治療に対するモチベーションを高め、健康行動の促進に有効であることが、複数の研究にて報告されています；一方、糖尿病においては、テキストメッセージの有効性を示唆する報告があるものの、最適化されたメッセージにおける有効性については検討されていません：こうしたアプローチでは、過去の行動に基づいて個人向けにコンテンツを調整することで、より大きな行動変容をもたらすことができると予測されます。そのため、本研究では、強化学習を活用し、個人特性を考慮したメッセージを導出し、介入効果を評価することで、最適化されたメッセージの効果を明確化することを目指しています。

手法

本章では、提案手法、および、実証方法—REinforcement learning to Improve Non-adherence For diabetes treatments by Optimising Response and Customising Engagement ：REINFORCE—試験について述べます。

まず、提案手法の実証方法である、REINFORCE 試験—デザイン・解析手法—について述べます。

REINFORCE 試験で強化学習を用いて調整したテキストメッセージが2型糖尿病患者の服薬アドヒアランスに与える影響を評価するためにデザインされた2群のランダム化比較試験です（下図）。

本試験では、2型糖尿病と診断され、1日1～3回の経口糖尿病薬を処方されている18～84歳の患者を対象として、定期的にテキストメッセージを配信し、服薬アドヒアランスに対する影響について、調査することが目的です。

試験手順（下図）から、隔週で行われるEHR—電子健康記録—を用いて、対象者を特定し、参加要請を受けたくない患者をオプトアウトする形で選出します。その後、ベースライン質問票・投薬用の電子錠剤ボトルが郵送されます：電子錠剤ボトルは、アドヒアランスに関する先行研究の多くで使用され、アドヒアランスにおける主流の測定手法です。ボトルデータは、携帯端末のアプリケーションから送信されます。その後、対象者を介入群と対照群に1対1の割合で無作為な割り当てをおこないますーこの無作為化は、

(1)ベースラインの自己申告アドヒアランスレベル、特に過去30日間で1回未満の服用または1回以上の服用漏れ、および(2)ベースラインのHbA1cが9％未満または9％以上に基づいて実施されます。6ヵ月後のフォローアップ終了時に、患者にテキストメッセージで連絡し、フォローアップアンケートに回答してもらっています。

介入

この章では、実証試験でおこなう介入について述べます。

介入の中核は、電子錠剤ボトルのデータに基づいて毎日のテキストメッセージのアウトリーチを個別化する、強化学習アルゴリズムです（下図）。

このアルゴリズムは、患者が薬を飲む可能性が最も高いテキストメッセージを予測し、それに対応するテキストメッセージを導出します—各メッセージの効果は、翌朝に実際に服薬したか、に基づき評価します。コントロール群には、テキストメッセージを送付しません。患者に配信されるテキストメッセージは、患者の行動にどのような影響を与えるか—服薬アドヒアランスを向上させるか—について、行動科学に基づいた質問票を用いて調査します。こうした定性的インタビューのフィードバックから、メッセージに組み込むべき5つの要素を抽出しています：

(1)中立、肯定的、否定的に分類されるフレーミング

(2)観察されたフィードバック：前週に患者が服薬していた証拠がある日数—0～7日—をテキストメッセージに含める

(3)社会的強化：テキストで知人に対して言及

(4)内容の性質：服薬リマインダー、薬やライフスタイルに関する情報

(5)内省、たとえば内省的質問を含むテキストにデザインする。

これらをもとに、先行試験などから選択した5つの要因の様々な要素を組み込んだテキストメッセージを設計しています（下表）：具体的には、ポジティブフレーミング、観察フィードバック、ソーシャル強化、リマインダー内容を含み、振り返りを含まないテキストメッセージは、1セットの要因—下表のテキスト8—を構成しています。試験における各要因セットは、少なくとも2つのテキストメッセージを含んでいます：合計47の組み合わせの要因を含む128のメッセージを開発しました。

強化学習アルゴリズム

この章では、介入における強化学習アルゴリズムについて述べます。

本試験では、HIPAA—Health Insurance Portability and Accountability Act—に準拠したMicrosoft Azureを活用し、3つの要素を統合しています：

（1）Pillsyサーバーから毎日取得される電子錠剤ボトルのデータ

（2）予測因子—年齢、性別、投薬数、ベースラインHbA1c、患者の活性化—について、毎日更新されるREDCapの患者データ

（3）Microsoft Personaliserで一般公開されている強化学習予測モデルアルゴリズム

予測因子では、患者に関するデータを毎日更新します：新規患者の登録、電子ピルボトルを使用している糖尿病治療薬の中止、新規薬剤の追加、アドヒアランス計算に必要な薬剤数。また、患者がピルボトルを開けた回数を処方された回数—ベースライン時のREDCapデータ収集で評価された1日1回 or 2回—で除算し、前日からの服薬アドヒアランスを計算します：0から1までのアドヒアランス値は、報酬—環境からのフィードバック—を意味しており、これらの合計が最高となるように学習され、複数の薬剤の場合、それぞれの値を平均化して学習をおこないます。

強化学習により、ランダムなテキストメッセージの提案が開始され、個人のフィードバックとその後の服薬アドヒアランスを観察します—時間とともに、患者が受け取るメッセージにどの要因を含めるべきかを予測し始めます：服薬アドヒアランスの報酬に加え、ベースライン特性、テキストメッセージの各要因における送信日数—同様のメッセージを連続して送信されないため—、患者が早く服薬したか—同じ暦日で、その朝のテキストメッセージ予測より前に服薬したか—など、を予測要因として組み込みます。アドヒアランス報酬を受け取らない—患者のピルボトルからデータを受け取っていない—場合、現在までのアドヒアランス報酬に基づき、メッセージを予測します。試験中、モデル学習のために、予測の10%がランダムに選択され、対象となります。テキストメッセージは、BWHが管理するHIPAA準拠のサードパーティプラットフォームであるMicrosoft Dynamics 365 SMS Textingを使って、毎日送信されます。

強化学習で指定されたメッセージに加え、無作為化をおこなった日に導入テキスト、7日以上接続されていない場合のリマインダーテキスト、フォローアップ終了時の最終アンケート、を送信します

結論

本章では、実証試験に用いたアウトカムについて、述べます。

主要アウトカム（下表）は、無作為化後6カ月間に評価される服薬アドヒアランスです：無作為化の翌日から無作為化の183日後まで、各患者の毎日の服薬アドヒアランスの平均値で測定されます。

副次的アウトカムには、HbA1cを用いて評価した血糖コントロールの変化、およびフォローアップ終了時の自己申告による服薬アドヒアランス、を対象とします。HbA1c値は、EHRに記録されたルーチン測定値から収集し、無作為化後1カ月までの各患者の6カ月間のフォローアップ終了時に最も近い値を使用します—HbA1cは約3-6ヶ月ごとに測定されるため、欠落を含むことが予想されます。

分析

本章では、実証試験における分析について述べます。

無作為化前における、変数の平均値と頻度を介入群と対照群に分け、これらの値を絶対標準化差で比較します。また、アウトカムを無作為化されたすべての参加者を対象にintention-to-treat—ITT—原則で評価します。

一次解析では、アドヒアランスと血糖コントロールについて、同一リンク関数と正規分布誤差を用いた一般化推定モデルを導入します—自己報告によるアドヒアランスでは、対数リンク関数とポアソン分布誤差を用いて、介入群と対照群におけるアドヒアランス患者の割合に対する相対リスクを求めます。二次解析では、無作為化にもかかわらず、両群間でベースライン変数に差がある場合に、その差を調整します。

感度分析—ある変数の変動したとき、アウトカムに与える影響に関する分析—では、電子錠剤ボトルの使用を30日以上停止した患者を除外します。また、ベースラインからのHbA1cの変化と、自己報告によるアドヒアランスの差を、自己報告スケールを構成する3項目別に評価します。血糖コントロール—HbA1c—および自己報告アドヒアランスについては、完全症例解析も実施し、サブグループ解析では、年齢、性別、人種/民族、ベースラインHbA1c、ベースライン自己報告アドヒアランス、試験薬の数による層別化をおこないます。試験終了後、異なるテキストメッセージ要因に対する反応によって介入患者をクラスタリングし、無作為化前のベースライン情報を用いてこれらのクラスタ表現型を予測する能力を評価します。

考察

本研究では、強化学習をベースとし個人に最適化されたテキストメッセージングがⅡ型糖尿病患者の服薬アドヒアランスに与える影響を検証することを目的としておこなっています。健康行動への介入には、個人のニーズや行動傾向に合わせた調整が必要だと考えられ、強化学習は、個人の反応パターンを発見し、それに応じてポリシーをパーソナライズするため、個人に最適なコミュニケーションの導出できることが予想されます；その一方、服薬アドヒアランスについて、強化学習を導入した報告は少なく、効果が不明瞭である課題があります。本研究では、強化学習に基づくテキストメッセージングがⅡ型糖尿病患者の服薬アドヒアランスに与える影響を検証するため、テキスト導出手法の開発およびRCTを含めた実証試験—REINFORCE—を実施しました。

先行研究では、健康状態の向上を目的として、強化学習が導入されている事例があります：例えば、Ⅱ型糖尿病患者を対象に、異なるテキストメッセージアプローチを活用し、運動への影響を検証しています；また、糖尿病患者に対する介入事例として、身体活動が改善された事例もあります：非適応—個人に最適化されていない—アプローチを活用することで身体活動量が20％以上増加した（p<0.001）。一方、これらは、患者が受け取るメッセージを個人化していないため、より高い効果を実現できる可能性があります。また、テキストメッセージはコストが低く、病院へのアクセスが困難な患者に対しても導入可能であるため、最適化をおこなったメッセージにより、相対的に高い効果を実現することが期待されます。

本研究の課題として、下記が考えられます：副次アウトカムにおける欠損；電子錠剤ボトルの影響；一般性の欠如。第一に、副次的アウトカム—自己報告によるアドヒアランス、など—での欠損が考えられます。実際の調査現場にて、自記式質問票が活用されるケースが多く、書き忘れなどのケースによりこうしたアウトカムの欠損が想定されます；そのため、本研究では、インピュテーション法—欠損値の補完手法の一種—を活用した補完をおこなっています。その他の対策として、データ収集時に複数名で記入漏れについて確認する、ということも考えられます。第二に、介入で使用される電子錠剤ボトルの影響も考えられます。電子錠剤ボトルは実際の服用量を正確に測定できる側面があるため、モニタリングによって、観測者が服薬量を認識し、ランダム化などにおいて、バイアスが発生する可能性があります；本研究では、対照群と介入群の両群において、電子錠剤ボトルを導入することで解決を図っています。第三に、一般性の欠如です：糖尿病前症のみを持つ患者など、テキストメッセージが届きにくいケースに拡張できない可能性があります。そのため、こうした患者に対しては、メッセージではなく、逐次的な対話システムを活用する、といった解決策が考えられます。