AIが専門医を超えた！？強化学習エージェントによる、がん治療の探索手法の提案！

強化学習 2022年01月24日

3つの要点
✔️ 患者数が急増するがんの中でも、上皮性卵巣がんでは、依然として生存率が低いことが指摘され、適切な治療方針の決定が課題
✔️ マルコフ決定過程—MDP—に基づいたモデルフリー学習(DQN)を活用
✔️ エージェントは、専門医が打ち出すレジームより、平均生存率を向上させる治療計画を導出することを確認

Patient level simulation and reinforcement learning to discover novel strategies for treating ovarian cancer
written by Brian Murphy, Mustafa Nasir-Moin, Grace von Oiste, Viola Chen, Howard A Riina, Douglas Kondziolka, Eric K Oermann
(Submitted on 22 Oct 2021)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

リアルワールドデータを活用した強化学習によって、生存率を向上させる治療はおこなえるのか？

本研究では、上皮性卵巣癌を対象として、強化学習—MDPおよびDQN—を活用し、個人特性を考慮した動的レジームを提案しています。上皮性卵巣癌は、他のがん疾患と比較し、生存率の向上が依然として低い課題が指摘されています。また、このがん治療には、複数の薬剤を用いた化学療法が主流であるため、統一した治療により効果的な成果を達成することが難しいことが指摘されています；そのため、個人特性を考慮した柔軟な治療方針—動的レジーム—の導入が求められています。

本研究では、こうした課題に対し、リアルワールドデータに基づいた強化学習—MDPおよびDQN—を活用することで、患者特性を考慮し生存率を改善する治療方針—動的レジーム—の導出を目指しています。強化学習の活用にあたり、上皮性卵巣癌の治療の履歴をモデル化する環境を設計し、エージェントとの相互作用により、個人特性を考慮した動的レジームを導出することを目的としています。この研究の特徴は主に3点です：転移性卵巣癌における、個々の治療への反応について、リアルワールドデータを用いたシミュレーション環境を構築しました；報酬—全生存期間—を最大化することを目的として、エージェントが治療方針を選択するシミュレーションを作成しました；最適解を見つけるために学習する、モデルフリー強化学習—DQN—を導入し、効果を確認しました。

上皮性卵巣癌とは？

まず初めに、本研究の解析対象である、上皮性卵巣癌について簡単に解説します。

上皮性卵巣がんは、卵巣の表面を覆っている組織に悪性（がん）細胞が発生する疾患で、特に中高年—40-60才代—の女性において発症率が高まります。初期の段階では、症状がなく、進行した状態において発見されることが多い、とされています。症状は、主に下記のようなものが報告されています：腹部の痛み、腫れ；骨盤の痛み；ガス、膨満感、便秘などの胃腸症状。また、卵巣がんの約25%が子宮内膜細胞診で陽性になることが報告されており、定位的な健診により予防できる可能性が高まるとされています。

この疾患の病期は、4種類—I期、II期、III期、IV期—存在し、各段階に応じて治療をおこないます。現在頻繁に用いられる治療法は主に3種類です：手術療法：外科手術により、腫瘍を取り除きます；放射線療法：高エネルギーX線、その他放射線を用いてがん細胞を除去、また、成長を抑制します；化学療法：薬剤を用いてがん細胞を殺す、または、細胞分裂を停止させます。上皮性卵巣がんは、婦人科がんでも、最も化学療法—抗がん剤治療—の感受性が高く、手術療法と化学療法の組み合わせ、が主流となります：I期では、手術療法—卵巣部分—、および、化学療法の検討；II期III期IV期では、手術療法と化学療法—抗がん治療—が採用されます。

また、服薬治療では、複数種類の薬が活用され、治療方針は、化学療法と免疫療法や放射線療法の併用、投与スケジュールの調整、異なる薬剤投与ルートの使用など、多岐にわたります；そのため、治療方針によっては、その後の予後が悪化するケースがあり、個人特性を考慮し、容体に応じた最適な治療方針を導出する必要があります。

動的レジーム—動的レジメン、DTR—とは？

動的レジメン—動的レジメン、DTR—は、患者の疾患の進行具合、副作用や検査値等に基づいて治療法を決定するレジメン—治療方針、治療に関する計画、服薬に関する計画書—を指します。通常、治療方針は、レジメンに従って、化学療法をおこないます；こうすることで、薬の過剰投与などの医療事故を防ぐ効果があります。一方、動的レジームは、患者の状態によって、レジメンを変更してより最適な治療方針を採用する柔軟性の高い治療方針です；そのため、患者一人ひとりの状態に応じて最適な治療方針が選択できる利点があります。DTRが特に有効となのは、最終的なエンドポイントを悪化させる副作用が発生するケース—薬剤の過剰処方など—、代替となる薬の選択肢が狭まるケース—継続的な服用により薬に対する耐性が発生—、などです；一方、下記のような課題も存在しています：治療方針の検討頻度の増加などのコストの増大；より高い専門性が必要。本研究は、こうした課題に対して、強化学習—DQN—を活用することで、より精度の高い動的レジームを導出することを目的としてます。

研究目的

本研究では、上皮性卵巣癌を対象に、モデルフリーの強化学習を活用した動的レジームの導出手法を提案しています：具体的には、マルコフ決定過程に基づいたモデルフリーの強化学習—DQN—を活用し、生存率の改善を目的とした環境構築をおこなっています。上皮性卵巣癌の治療は、通常、複数の薬剤、また、複数の治療方法を併用するため、治療の進行度合いに応じ、治療方針を変更し、決定する必要性が求められています。こうした課題に対し、本研究では、強化学習を活用した、動的レジームの導出手法の開発を目指しています。強化学習は、逐次的な意思決定など、意思決定に対して効果的なアルゴリズムを内包しており、こうした動的レジームに活用することで、最適な治療方針を導出できる、と考えられます—本手法では、がん臨床試験データ—TCGAなど—をシミュレーション環境として定式化し、最適な治療決定を導出することを目指しています。

手法

データソースと前処理

このセクションでは、本研究にて活用したデータとそれに対する前処理について述べます。対象データは、がんに関するデータベース—The Cancer Genome Atlas：TCGA—です：このデータベースから、先行研究に基づき、上皮性卵巣がん患者609名に関する包括的な治療計画および治療に対するアウトカムを取得しています。また、データセットに対する前処理に対して、複数のライブラリ—NCI Drug Dictionary、Broad GDAC Firehose—を活用しています：薬剤標準化インデックスを使用し、すべての薬剤名をその一般的な同等名に変換しています。そのほか、治療計画のデータから，治療ラインの薬剤名が記載されていないもの，治療開始日と終了日が等しく，治療ラインのタイミングが不明確なものを削除し、全生存期間のエンドポイントを達成できなかった患者を除外しました—最終的には460人中225人の患者を対象としています(下表）。

続いて、データを30日間の治療期間に再編成しています。再編成されたデータセットは、9,296の1ヶ月の治療期間サンプルからなり、それぞれ患者ID、治療開始からの月数、現在の治療薬の組み合わせ、を含んでいます。これらのデータには127種類の薬剤の組み合わせと "no active treatment "のオプションが含まれており、最終的な生存指標が死亡イベントである患者のサブセットを使用して、強化学習環境を構築しています：5,931個の1ヶ月の治療期間サンプルからなり，107個のユニークな薬剤の組み合わせと " no active treatment "を含んでいます。

強化学習における環境設定

このセクションでは、強化学習をおこなう環境について述べます。

上記のデータをもとに、上皮性卵巣がん患者の動的レジームをシミュレーションする為、マルコフ決定過程—MDP—をベースとした環境を構築しています：各状態は、患者の状態、現在の治療法に対する反応、治療開始からの時間、総治療期間、年齢、人種、腫瘍固有の情報—腫瘍のグレードとステージーで構成されます；薬剤に関するアクションは、すべてのユニークな治療の組み合わせで構成しています—TCGA卵巣がんデータセットに存在しない薬剤の組み合わせを除外しています。

生存率モデリング

このセクションでは、環境設定に用いた、生存率に関するモデルについて述べます。

ここで述べる、生存率に関するモデルは、特定の時間に特定の治療を受けた各患者のある状態から次の状態への遷移確率のセット、を指します。各状態遷移は、次の状態を確率的に決定する2組の確率を含んでいます：最初の確率は、患者が確率 P(D) で死亡するか、確率 P(S) = 1 - P(D) で生存か、を決定します。死亡した場合、その後は死亡—終状態—となり、次のプロセスに進みます；生存の場合、二つ目の確率が適用されます：寛解状態か，次の状態 P(T) = 1 - P(R) でさらなる治療が必要になるか、を決定します（下図）。

また、これらの確率を計算するにあたり、2つの多変量Cox比例ハザード回帰を活用しています：州状態に関する確率では、末期死亡イベントと治療開始からの月数を用いてベースラインハザードを計算します；生存状態に関する確率では、再発・寛解、と現在の治療レジメンの月数を用いてベースラインハザードを用いています（下図）

その後，（患者の現在の状態-行動）の組に基づき、各回帰の生存関数に対するサンプリングをおこない、P(D), P(S), P(R) および P(T) を獲得します。報酬は、行動𝑎が死亡に至らなかった患者の生存月数の合計を設定しています。

強化学習モデル

このセクションでは、評価に用いた強化学習について述べます。

本研究では、モデルフリーの一種である、深層Qネットワーク（DQN）を活用しています：エージェントは、観察された状態遷移に基づいて行動（薬の組み合わせ）を選択し、状態-行動のペアは、確率的に状態を決定するMDPに供給されます。エージェントは20万ラウンド（1ラウンド＝1人の模擬患者）で訓練され、過去の患者の軌跡がDQNの訓練データセットとなった（下図）。

DQNエージェントの最終的な性能は、二つの指標—最初の1,000人の患者から計算したベースライン平均生存率；トレーニングデータの最後1,000人の患者の平均シミュレーション生存率—に基づいて評価され、最後の1,000人の平均生存率について、臨床医が治療した患者の平均生存率について比較しています。また、MDPの構築に使用したデータセットを活用し、5回以上出現した薬剤の組み合わせにアクションを制限した状態で、評価をおこなっています—一般的な治療を反映しない特殊な状況下での学習を防ぐ目的でおこなっています。

結果

ここでは、提案手法における動的レジームの有効性を検証するため、専門医による生存時間を比較対象として評価をおこなっています。

生存時間における比較

この評価では生存時間を指標として、提案手法と専門医による治療戦略の比較を目的としています。

提案手法では、最初の1,000人の平均生存期間は32.3カ月、最後の1,000人は42.9カ月となりました；そのため、腫瘍医主導の治療戦略—平均生存期間が26.4カ月—と比較し、より高い生存率を達成したことが示されました（下図）。

専門医は、第一選択治療としてカルボプラチンとパクリタキセルを最もよく処方し、時間の経過とともに、トポテカン、ドキソルビシン、カルボプラチン、パクリタキセル単剤療法に切り替えていました；一方、提案手法は、アルデスルキンのほぼ連続投与をおこなう戦略を導出していました（下図）。

また、より一般的な治療法に限定した場合、提案手法が代替戦略を立てるかを確認する目的で、行動セットを制限したシミュレーションについても評価しています。100万回のシミュレーションの後、提案手法はゲムシタビンとタモキシフェンの併用療法を導出し、時間経過とともに、他のレジメン—シスプラチンとタモキシフェンの併用療法など—にシフトしていました（下図）。

これらの学習後、平均生存期間に対して、提案手法では、専門医より有意な改善が確認されました：ベースライン（最初の1,000人）の43.4カ月と比較し、最後の1,000人の平均生存期間は45.5カ月（下図）。

考察

本研究では、上皮性卵巣がんを対象とし、強化学習を活用し、実世界のデータに基づき、新たな動的レジームの作成を目的としたアルゴリズムを提案しています。治療方針の多様性から、より患者状態を考慮することが可能な動的レジームを導入することの必要性が述べられている一方、コスト面をはじめとする課題が指摘されていました。提案手法では、上皮性卵巣がんの治療とアウトカムに関する患者レベルのシミュレーションを開発し、DQNに基づく環境構築をおこない、個人特性を考慮した最適な動的レジームの導出を目指しています。評価結果として、提案手法により学習されたエージェントが、専門医と比較して、全生存期間を改善することを確認しています。

また、今後必要となる追加評価として、事前に訓練されたエージェントに対して、テストデータを活用して、動的レジームの評価が考えられます—臨床現場への活用を考えた際、強化学習エージェントの学習の真偽を明確化する必要があり、こうした汎用性の高いデータセットでの評価が求められます；そのため、患者の医療記録と検査結果のデータをもとに、治療の各段階において治療提案を行い、実際の患者に対する腫瘍医の意思決定と比較・検討することが今後の方針の一つである、と考えられます。

本研究に関する課題として、下記のようなものが挙げられます：エージェントの質の検証；評価対象以外の生存モデルの検討。第一に、学習エージェントの質は、シミュレータの忠実度によって制限されます—TCGAデータセットで、全生存エンドポイントを達成した患者のみを活用したため、全体のサンプルサイズが制限されています。こうしたサンプルサイズの改題に対する解決策として、複数の総合がんセンターや臨床試験データベースから十分な量のデータを収集することです：先行研究の結果から、少なくとも患者ごと（225人）で1桁，理想的には2桁のデータが必要となります。第二に、生存に関する数学モデルの追加的な検証です。シミュレーションの結果、訓練されていないDQNエージェントは平均生存率で臨床医を上回る結果となったため、生存モデルはさらなる改良が必要であると考えられます：本研究で活用した、多変量Cox比例ハザード回帰以外の生存モデルを検討し、生存時間への影響を検証する必要があります。