敵対的ドメイン適応をベースにがんの治療薬候補を予測する手法が提案!
3つの要点
✔️ がん幹細胞の機能抑制に関連する薬剤の候補を推定する新たなモデルが提案
✔️ 二種類の異なるデータセットのバイアスを除去しつつ学習するために、敵対的ドメイン適応の手法を使用
✔️ モデルが予測した薬剤候補は、実際の細胞を用いた実験により有効性を確認
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
イントロダクション
研究背景と本手法の要点
将来的に日本人の二人に一人がかかるとされているがんという病気は、現代において治療法が確立していない難治性の疾患の一つです。がんは、ヒトをはじめとする動物内に存在する細胞の増殖を行う機構が壊れてしまい、その細胞ががん細胞という特殊な細胞になってしまうことによって発生し、進行することが知られています。
がん細胞の中でも特に特殊な細胞として、がん幹細胞という細胞があります。幹細胞とは、自らを複製する能力を有したり、多種多様な機能を持つ細胞に変化すること(これを分化といいます)が可能であるような特殊な細胞のことを指します。がん幹細胞は、細胞の制御が壊れてしまうがん細胞としての性質と、幹細胞としての性質を兼ね備えています。
このようながん幹細胞は、がんの転移や再発に大きな影響を与えることが知られています。特に近年ではがんの治療法として、がん幹細胞の分化の仕方を変化させて、がんの進行を抑えるように誘導するための薬剤の開発が進められています。
本論文では、がんの中でも特に乳がんに焦点を当てて、敵対的ドメイン適応という手法を用いて新薬の候補を特定する新たなモデルを開発したことが示されています。
モデルの構造
本モデルで使用される敵対的ドメイン適応について
学習のワークフロー
モデルの全体像
データセットについて
ソースドメインのデータセットは、ヒト誘導多能性幹細胞(成人の体細胞を元に作られる幹細胞、略称hiPSC)を対象に、その細胞から得られる遺伝子がどのような機能を果たすかを調べる技術(scRNA-seq)を用いて解析を行い、情報を体系的にまとめたデータセットです。
一方、ターゲットドメインのデータセット(LINCS L1000)は、細胞があらゆる刺激に対してどのように応答するかを、遺伝子がどのように機能に影響を与えるかに基づいて大規模に解析し、体系的にまとめたデータセットです。
後者は特に、特定の薬剤がどのように機能に影響を与えるかについての情報がまとまっており、例えば、図に示すように細胞A(ないしは細胞B)に対して薬剤X(ないしは薬剤Y)を与えると最終的にどのように機能に影響を与えるかについてが詳細に示されたデータセットとなっています。
本研究においては、ソースドメインからまず細胞が分化するパターンを学習し、その知識を活用して各薬剤の分化を誘導する能力を予測するようにドメイン適応を行なっています。
学習の進行を表す図
この図は、学習の進行がどのように進むかを示しており、横軸を学習の際のエポック、縦軸を損失としています。ソースドメインのタスク分類器の損失の変化を青色で、その分類器の精度の変化を薄い灰色で、敵対的分類器におけるソースドメインの精度の変化を灰色で、ターゲットドメインの精度の変化を濃い灰色で示しています。
タスク分類器の精度(薄い灰色)は、86.7%の精度に到達しています。敵対的分類器の精度については、二種類のデータセットを見分ける能力をできるだけ最小にすることを目的とするため、ソースドメインを用いた精度(灰色)とターゲットドメインを用いた精度(濃い灰色)はそれぞれ50%に近づくことが予想されますが、図では確かにその値に収束していくことが読み取れます。
ドメイン適応前後の比較
上図のcでは、ドメイン適応を行う前(左図)と後(右図)でtSNEによる分析を行った結果を示しています。青、緑、黄、赤はソースドメインを四つにクラスタリングすることによって得られる分布を示しており、黒色はターゲットドメインで用いるデータセットから得られる分布を示しています。
ドメイン適応を行う前は異なる分化の段階の細胞が広く分散している一方で、ドメイン適応後はそれらの細胞がより区別できるようになっていること、さらにターゲットドメインの分布がソースドメインの分布全体に広がっていることが示されています。
実験結果
この図では、本モデルが予測した薬剤候補に対して化学的な実験を行い、その結果を示しています。
まず、図aでは本モデルが予測した上位10の薬剤候補について幹細胞としての特性を示すDECODEスコアを赤色で、下位10の薬剤候補についてのスコアを青色で示しています。
DECODEスコアは高ければ高いほど幹細胞としての特性が強いことを示すスコアであり、この図より、優先順位が高い薬剤候補ほど幹細胞の特性が高いことが予測されます。
図bでは、幹細胞の集団の数、集団がなす総面積、およびそれらの平均という三つの指標に対して、薬剤処理を行う前と後の値の比を示しています。これにより、モデルが予測した薬剤候補を用いることで、幹細胞の性質に関連する様々な指標に違いが生じることが示されています。
また、論文中では、高い優先順位を持つ薬剤の候補が、乳がん幹細胞に対する影響を評価でき、その細胞の成長や自己複製能力を抑制することが示されています。つまり、各薬剤の有効性が高いことが確かめられています。
図のcからeは、本モデルが予測した30の薬剤候補のうち、細胞の機能や細胞構造に関連するプロセスが抑制、または促進される割合を示したグラフです。機能を抑制する場合を赤で、機能を促進する場合を緑で示しています。
これらの図より、モデルが予測した薬剤候補によって細胞周期に関する遺伝子の機能は抑制される一方で、細胞の分化が促進されることが示されています。つまり、薬剤の候補ががん幹細胞の持つ特性をきちんと制御できるようになっていることが示されています。
上の図のaからcは、モデルが予測した薬剤によって乳がんの幹細胞が成長したり、自らを複製したりする能力にどのように影響を与えているかを示した図です。
図aについては、薬剤の効果を視覚的に表しています。上段と下段は実験で用いたがん幹細胞の代表的な例を示しています。五列のうち最左列は薬剤処理を行っていない場合、左から二列目および三列目は「TRIPROLIDE」という、四列目および五列目は「OTS-167」というモデルの予測によって得られた薬剤の濃度をそれぞれ徐々に増やしていった場合に、幹細胞の特性にどれだけ影響を与えるかを示しています。
薬の濃度を増やすほど、塊が占める割合が減っている(つまり、がん幹細胞の機能を抑制していること、さらに言い換えれば薬剤が治療法として有効であること)が読み取れます。
図bはさらにその定量化を行ったもので、左半分はあるがん幹細胞について、右半分は別の幹細胞について、三種類の異なる薬剤を用いた際に特性にどのような違いが見られるかを示しています(各図の横軸は薬剤の濃度、縦軸はがん幹細胞の特性の強さを表すと思ってくださって大丈夫です)。
薬剤を加えなかった場合を青で、少量加えた場合を赤で、多量に加えた場合を緑で示しています。この図より、緑の色の方が青や赤より縦軸のスコアが少なくなる傾向にあること(つまり、がん幹細胞の機能が抑制できること、言い換えれば機械学習モデルが予測した薬剤がきちんと治療法として有効であること)が確認できました。
まとめ
この記事に関するカテゴリー