敵対的ドメイン適応をベースにがんの治療薬候補を予測する手法が提案！

Neural Network 2024年10月31日

3つの要点
✔️ がん幹細胞の機能抑制に関連する薬剤の候補を推定する新たなモデルが提案
✔️ 二種類の異なるデータセットのバイアスを除去しつつ学習するために、敵対的ドメイン適応の手法を使用
✔️ モデルが予測した薬剤候補は、実際の細胞を用いた実験により有効性を確認

AI identifies potent inducers of breast cancer stem cell differentiation based on adversarial learning from gene expression data
written by View ORCID ProfileZhongxiao Li, Antonella Napolitano, Monica Fedele, Xin Gao, Francesco Napolitano
(Submitted on 22 August 2023)
Comments: Published on bioRxiv

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

イントロダクション

研究背景と本手法の要点

将来的に日本人の二人に一人がかかるとされているがんという病気は、現代において治療法が確立していない難治性の疾患の一つです。がんは、ヒトをはじめとする動物内に存在する細胞の増殖を行う機構が壊れてしまい、その細胞ががん細胞という特殊な細胞になってしまうことによって発生し、進行することが知られています。

がん細胞の中でも特に特殊な細胞として、がん幹細胞という細胞があります。幹細胞とは、自らを複製する能力を有したり、多種多様な機能を持つ細胞に変化すること（これを分化といいます）が可能であるような特殊な細胞のことを指します。がん幹細胞は、細胞の制御が壊れてしまうがん細胞としての性質と、幹細胞としての性質を兼ね備えています。

このようながん幹細胞は、がんの転移や再発に大きな影響を与えることが知られています。特に近年ではがんの治療法として、がん幹細胞の分化の仕方を変化させて、がんの進行を抑えるように誘導するための薬剤の開発が進められています。

本論文では、がんの中でも特に乳がんに焦点を当てて、敵対的ドメイン適応という手法を用いて新薬の候補を特定する新たなモデルを開発したことが示されています。

モデルの構造

本モデルで使用される敵対的ドメイン適応について

ドメイン適応とは、コンピュータビジョンで広く知られるアプローチであり、あるドメイン（例えば写真など）で訓練されたモデルを別のドメイン（例えば絵など）に適用するための手法です。

本論文では、この手法をさらに発展させた敵対的ドメイン適応の手法を活用しています（詳細は後述します）。この手法を用いることにより、異なるデータセット固有のバイアスを除去すること、および異なるプラットフォームをまたぐ大量の情報を活用したモデルの学習が行えるようになることが示されています。

学習のワークフロー

本モデルにおけるタスクは、主要タスク（図中ではMain Taskと表現）と敵対的タスク（図中ではAdversarial Taskと表現）という二種類のタスクからなります。

前者のタスク（Main Task）では、ソースドメインを用いて細胞が四つの分化段階のうちどの分化段階にあるのかを学習します。このタスクでは、分化の段階を予測する四値分類の精度ができるだけ大きくなるようにモデルの学習を行います。

後者のタスク（Adversarial Task）では、ソースドメインとターゲットドメインの違いを識別するように学習します。すなわち、それらのデータセットの識別の精度ができるだけ小さくなるように学習を行います。このような学習機構を導入することで、それぞれのデータセットが持つバイアスを除去することが可能となります。

次に、図中の2に示すように、訓練されたモデルを使用して、ソースドメインとターゲットドメインについて、薬剤が分化を誘導する能力がどれほどあるかに基づいてスコア付けを行います。

そして、図中の3にあるように、今求めたスコアを元に、細胞の分化を促進する薬剤、および幹細胞の特性を維持する薬剤としてふさわしい候補を決定します。

最後に、図中の4にあるように、優先順位が付けられた薬剤の中から6つを選んで、実際の細胞を用いて実験を行います。

このように、深層学習を活用して薬剤の候補を絞り込んでから実験を行うことにより、薬剤候補を推定するにあたっての時間や費用のコストを大幅に下げることができると考えられています。

モデルの全体像

この図は、実際にどのようにモデルが学習するのかについて、その概要を示したものです。図に示すように、まずソースドメインとなるデータセットとターゲットドメインとなるデータセットを用いて、それぞれ異なるエンコーダを用いて学習を行います。

次に、二種類のエンコーダによって得られるそれぞれの特徴量を統合し、これを入力としてデコーダの学習を行います。

デコーダの出力は、後続のタスク分類器（緑色で囲まれた部分）および敵対的ドメイン分類器（赤色で囲まれた部分）の入力として使われます。

タスク分類器では、分化段階が四つのうちどれに該当するかをMLP層によって予測を行います。学習時には、予測精度を高めるための損失関数（Task Classification Loss）、ドメインが固有に持つバイアスを減少させるための損失関数（Domain Confusion Loss）を用いて学習を行います。

一方、敵対的ドメイン分類器ではソースドメインとターゲットドメインの違いを識別するように学習を行い、識別の精度を最小化するように学習を行う損失関数（Adv. Domain Loss）を用いて学習を行います。

データセットについて

ソースドメインのデータセットは、ヒト誘導多能性幹細胞（成人の体細胞を元に作られる幹細胞、略称hiPSC）を対象に、その細胞から得られる遺伝子がどのような機能を果たすかを調べる技術（scRNA-seq）を用いて解析を行い、情報を体系的にまとめたデータセットです。

一方、ターゲットドメインのデータセット（LINCS L1000）は、細胞があらゆる刺激に対してどのように応答するかを、遺伝子がどのように機能に影響を与えるかに基づいて大規模に解析し、体系的にまとめたデータセットです。

後者は特に、特定の薬剤がどのように機能に影響を与えるかについての情報がまとまっており、例えば、図に示すように細胞A（ないしは細胞B）に対して薬剤X（ないしは薬剤Y）を与えると最終的にどのように機能に影響を与えるかについてが詳細に示されたデータセットとなっています。

本研究においては、ソースドメインからまず細胞が分化するパターンを学習し、その知識を活用して各薬剤の分化を誘導する能力を予測するようにドメイン適応を行なっています。

学習の進行を表す図

この図は、学習の進行がどのように進むかを示しており、横軸を学習の際のエポック、縦軸を損失としています。ソースドメインのタスク分類器の損失の変化を青色で、その分類器の精度の変化を薄い灰色で、敵対的分類器におけるソースドメインの精度の変化を灰色で、ターゲットドメインの精度の変化を濃い灰色で示しています。

タスク分類器の精度（薄い灰色）は、86.7%の精度に到達しています。敵対的分類器の精度については、二種類のデータセットを見分ける能力をできるだけ最小にすることを目的とするため、ソースドメインを用いた精度（灰色）とターゲットドメインを用いた精度（濃い灰色）はそれぞれ50%に近づくことが予想されますが、図では確かにその値に収束していくことが読み取れます。

ドメイン適応前後の比較

上図のcでは、ドメイン適応を行う前（左図）と後（右図）でtSNEによる分析を行った結果を示しています。青、緑、黄、赤はソースドメインを四つにクラスタリングすることによって得られる分布を示しており、黒色はターゲットドメインで用いるデータセットから得られる分布を示しています。

ドメイン適応を行う前は異なる分化の段階の細胞が広く分散している一方で、ドメイン適応後はそれらの細胞がより区別できるようになっていること、さらにターゲットドメインの分布がソースドメインの分布全体に広がっていることが示されています。

実験結果

この図では、本モデルが予測した薬剤候補に対して化学的な実験を行い、その結果を示しています。

まず、図aでは本モデルが予測した上位10の薬剤候補について幹細胞としての特性を示すDECODEスコアを赤色で、下位10の薬剤候補についてのスコアを青色で示しています。

DECODEスコアは高ければ高いほど幹細胞としての特性が強いことを示すスコアであり、この図より、優先順位が高い薬剤候補ほど幹細胞の特性が高いことが予測されます。

図bでは、幹細胞の集団の数、集団がなす総面積、およびそれらの平均という三つの指標に対して、薬剤処理を行う前と後の値の比を示しています。これにより、モデルが予測した薬剤候補を用いることで、幹細胞の性質に関連する様々な指標に違いが生じることが示されています。

また、論文中では、高い優先順位を持つ薬剤の候補が、乳がん幹細胞に対する影響を評価でき、その細胞の成長や自己複製能力を抑制することが示されています。つまり、各薬剤の有効性が高いことが確かめられています。

図のcからeは、本モデルが予測した30の薬剤候補のうち、細胞の機能や細胞構造に関連するプロセスが抑制、または促進される割合を示したグラフです。機能を抑制する場合を赤で、機能を促進する場合を緑で示しています。

これらの図より、モデルが予測した薬剤候補によって細胞周期に関する遺伝子の機能は抑制される一方で、細胞の分化が促進されることが示されています。つまり、薬剤の候補ががん幹細胞の持つ特性をきちんと制御できるようになっていることが示されています。

上の図のaからcは、モデルが予測した薬剤によって乳がんの幹細胞が成長したり、自らを複製したりする能力にどのように影響を与えているかを示した図です。

図aについては、薬剤の効果を視覚的に表しています。上段と下段は実験で用いたがん幹細胞の代表的な例を示しています。五列のうち最左列は薬剤処理を行っていない場合、左から二列目および三列目は「TRIPROLIDE」という、四列目および五列目は「OTS-167」というモデルの予測によって得られた薬剤の濃度をそれぞれ徐々に増やしていった場合に、幹細胞の特性にどれだけ影響を与えるかを示しています。

薬の濃度を増やすほど、塊が占める割合が減っている（つまり、がん幹細胞の機能を抑制していること、さらに言い換えれば薬剤が治療法として有効であること）が読み取れます。

図bはさらにその定量化を行ったもので、左半分はあるがん幹細胞について、右半分は別の幹細胞について、三種類の異なる薬剤を用いた際に特性にどのような違いが見られるかを示しています（各図の横軸は薬剤の濃度、縦軸はがん幹細胞の特性の強さを表すと思ってくださって大丈夫です）。

薬剤を加えなかった場合を青で、少量加えた場合を赤で、多量に加えた場合を緑で示しています。この図より、緑の色の方が青や赤より縦軸のスコアが少なくなる傾向にあること（つまり、がん幹細胞の機能が抑制できること、言い換えれば機械学習モデルが予測した薬剤がきちんと治療法として有効であること）が確認できました。

まとめ

本研究では、がん幹細胞の機能抑制に関連する薬剤の候補を特定するために、敵対的ドメイン適応の機械学習手法を用いたモデルを提案しました。具体的には、二種類のデータセットをソースドメインとターゲットドメインに区別する敵対的ドメイン分類器を導入し、二種のデータセットのバイアスを減少させる損失関数を導入して学習を行いました。

本モデルの予測スコアに基づいて選定した薬剤の候補は、実験によりがんに悪影響を与える細胞の機能に対して効果を示し、モデルの有効性が確認されました。

この研究をさらに推進するために、著者らは臨床試験による薬剤の治療効果や安全性の評価、そして化学的視点からの分子メカニズムの解明を目指しています。

今回の論文に限らず、多数存在する薬剤の候補に対して機械学習によって候補を絞り込み、その候補に対してコストのかかる実験による検証を行い創薬のスピードを上げるといったアプローチは広く行われています。もし興味を持たれた方がいたら、さらに関連論文を読んでみることをお勧めします。