心を読む!ディープラーニングで頭の中の言葉を音声に変えることが可能に

コロンビア大学の研究チームは、頭の中で思考していることを、音声に変換するシステムを作成しました。スピーチシンセサイザーと人工知能の力を活かしたこの画期的な技術は、病気で動けない人や話すことができない人が外界とのコミュニケーションを取り戻すことに役立つかもしれません。

論文 Towards reconstructing intelligible speech from the human auditory cortex

ディープラーニングを使用し音を再構成する

もし、動けなくなったら、喋れなくなったら、どうやって人とコミュニケーションをとる?

安心してください。AIがいます。

最近コロンビア大学のエンジニアは頭の中で考えた言葉を直接スピーチに翻訳するシステムを設計したと発表しました。今回採用された音声変換システムは、脳の活動をデータ化し、音声合成装置と人工知能を組み合わせて、音を再構成するといったものです。

音の再構成は、神経活動から音響刺激の最良の近似を見つける逆写像技法で、もともと、神経の表現特性を研究するための方法として最初に提案されました。

神経応答の直感的な解釈が可能になるため、近年では、重度の麻痺患者の音声を回復するための脳から音声を出力する 脳コンピュータインタフェース(BCI)などに応用されています(論文内では、最終的な目標は、脳への直接的な伝達経路を作り出すことであるとも述べられている)

fMRIのおかげで、人々が話したり、他人の話を聞く際、脳内の特定部分が活性化される事実は数十年前から知られており、以前チームが行なった研究では神経データから音声を再構成することの実現可能性を確立しました。

しかし再構成された音声の品質はこれまで主観的評価に値するには低すぎたため、BCIアプリケーションに対する有用性を著しく制限していました。

そこで今回、チームは、最新のディープラーニング を組み合わせ、人間の聴覚皮質からの理解可能な音声を再構築しました。

まず、研究チームは、脳外科手術を予定している5人のてんかん患者の脳内に、一時的に電極を埋みました。5人の患者は文章を録音した音声を聞くように求められました。この患者の脳活動データーはニューラルネットワークをベースとした音声認識ソフトの訓練に利用しました。

そして、同じ患者に音声を聞かせます。この過程で、被験者は音を受け取り、音響信号は神経電気信号に変換され、前庭神経を通して脳に伝達されます。脳の聴覚皮質のネットワークがアクティブになり、電気信号も電極によって受信されます。

これらの変化する信号を収集し、信号である有効な情報を抽出します。

これらの信号に応答して生成された音を、ニューラルネットワークによって分析し、クリーンナップしたところ、一連の数字を暗唱するロボットのような声がしたとのこと。音の正確さをテストした結果、人々は75%の精度で正しい言葉を理解できました。それは以前のどんな試みよりもはるかに精度が高いもので、以前の試みと比較したときと比べて明白でした。

どうやって再構成する

音声再構成法の概略図 (A)被験者は元のスピーチ文を聞いた状態。聴取者の聴覚皮質における誘発神経活動のデーターは、音声刺激を再構築するために使用されました。被験者における反応電極は赤で示されている。

気になるのはどうやって、再構成したのかということです。

論文では、再構成精度に及ぼす要因として大きく以下の2つの因子の影響を調べました。

❶再構成を意図した音声の表現 (スペクトログラムVS音声ボコーダ)

❷回帰手法 (線形回帰VS非線形ディープニューラルネットワーク)

まず、表現の再構成の対象としてオーディオの2種類の音響表現、「スペクトログラム」と「音声ボコーダ」を用意しました。

次に、それぞれの表現の再構成において、2つの回帰モデル、「線形」と「非線形(DNN)」を比較します。
つまり、再構成プロセス全体は4つの異なる方法に分けられます。

スペクトログラム×線形回帰(水色)

 ボコーダー×線形回帰(紫

スペクトログラム×DNN(ピンク)

ボコーダー×DNN(濃い赤)

テストの結果、ボコーダを回帰するためにディープニューラルネットワークモデルを使用することが、その他の組み合わせよりも著しく優れており、75%の精度で再現できたとのこと。この結果は、神経復号化における非線形技術(DNN)の重要性を示しているのではないでしょうか。

Mesgarani博士と彼のチームは次にもっと複雑な単語と文をテストすることを計画しており、最終的には、考えてることを直接言葉に翻訳する着用できる装置を目指しているそうです。

例えば、着用者が「コップ一杯の水が必要だ」と考えた場合、システムはその考えによって生成された脳の信号を受け取り、それらを合成された言葉によるスピーチに変えることができます。これは、ゲームチェンジャーになるでしょう。けがであろうと病気であろうと、話す能力を失った人でも、周りの世界とつながる新たな機会を与えてくれます。