DNAを最適化するための新しいフィードバックアーキテクチャ、FeedbackGANが開発される

スタンフォード大学のJames Zou博士は、機械学習を応用して、抗菌を示す可能性がもっとも高いタンパク質(抗菌ぺチプド)を一日で作り出すことを目的とした、全く新しい何千もの仮想DNA配列を生成するアルゴリズムを開発しました。Feedback GANと呼ばれるこのアルゴリズムは、GANに外部関数アナライザーを使用する、新規のフィードバックループアーキテクチャです。

論文:Feedback GAN (FBGAN) for DNA

GAN(敵対的生成ネットワーク)で合成生物を作る

合成生物学とは、生物システムの体系的な設計と工学を指し、医療や環境治療などの分野に革命をもたらすと期待されている領域の学問です。しかし、現在の合成生物学の技術はほとんどが手作業であり、かなりのドメイン経験を必要としています。

この論文では、これらの課題に対し、敵対的生成ネットワーク(GAN)を用いて、合成生物学において遺伝子、タンパク質または薬物などの現実的なデータを生成するための魅力的で新しいアプローチを提案しています。

Feedback GAN

スタンフォード大学の生物医学データ科学の助教授であるJames Zou博士は、機械学習を応用して、抗菌を示す可能性がもっとも高いタンパク質(抗菌ぺチプド)を一日で作り出すことを目的とした、全く新しい何千もの仮想DNA配列を生成するアルゴリズムを開発しました。

Feedback GANと呼ばれるこのアルゴリズムは、GANと外部関数アナライザーを使用した、新規のフィードバックループアーキテクチャです。基本的に異なるDNA断片の大量生産として機能しますが、アルゴリズムは盲目的には働いている訳ではなく、能性のある新しい遺伝子配列をベースにしており、ランダムなチャンスと正確さの適切なバランスを取り入れるようになっています。

さらに、このアルゴリズムは、単にDNAの新しい組み合わせを作り出すだけでなく、フィードバックループを介して、何が機能し、何が機能しないかを学習しながら自らを積極的に洗練していきます。他の既知の抗菌ペプチドとの類似性に基づいて、「良い」のものは、アルゴリズムにフィードバックされ、自身を精製します。

このフィードバックループを持つことによって、システムは抗菌特性を持つと思われる配列の後に新しく生成された配列をモデル化することを学習し、個々のペプチド配列と、その配列の生成がどんどん良くなっていきます。

▶︎GAN+アナライザー

図1

図1に示すようにフィードバックループメカニズムは2つの要素から成ります。第一の構成要素はGANであり、これはいかなる特性についても濃縮されていない新規遺伝子配列を生成します。

2番目の構成要素はアナライザです。アナライザーは遺伝子配列を取り込み、その配列が抗菌ペプチドをコードする確率を予測する微分可能なニューラルネットワークです。

図2

 

図2で示すように、フィードバック機構が開始されると、いくつかの予測が、ジェネレータからサンプリングされ、アナライザに入力されます。アナライザーは、それぞれの遺伝子配列がどの程度有利かを予測し、最上位の好ましい配列は、「実物の」データとして識別器に戻されます。
このようにして、ジェネレータから直接入力された弁別器の「実物の」データの組は、アナライザーから高いスコアを受け取る合成データによって徐々に置き換えられます。

この方式で、徐々に、アナライザーからハイスコアを受け取っている合成データと、「本当の」データの識別者のセットは、取り替えられます。

合成された遺伝子が天然のcDNA配列と類似しているかどうかをさらに調べるために、Uniprotから抽出し、得られたタンパク質のいくつかの物理化学的特徴を計算した結果、天然cDNA配列の特徴に適合し、所望の特性を有する可能性が高い遺伝子の生成が確認できました。

将来の展望

Zou氏は将来の研究において、現在提案されている方法を、タンパク質の折り畳み問題のような、ゲノミクスおよび個別化医療におけるさらなる応用分野に適用し検証することを望んでいると述べています。

さらに、GANをトレーニングするためにFBGANが提案したフィードバックループメカニズムは、シーケンスや合成生物学アプリケーションに限定せず、この方法論をGANの画像生成ユースケースに適用することも含まれているそうです。

この記事をシェアする