ディープラーニングで頭の中の言葉を音声に変える

コロンビア大学の研究チームは、頭の中で思考していることを、音声に変換するシステムを作成しました。スピーチシンセサイザーと人工知能の力を活かしたこの画期的な技術は、コンピューターが脳と直接通信するための新しい方法につながる可能性があります。また、筋萎縮性側索硬化症(ALS)の人や脳卒中から回復している人など話すことができない人を助けるための基盤になり、外界とのコミュニケーション能力を取り戻すことに役立つかもしれません。

論文 Towards reconstructing intelligible speech from the human auditory cortex

ディープラーニングを使用し音を再構成する

コロンビア大学のエンジニアは頭の中で考えた言葉を直接スピーチに翻訳するシステムを設計したと発表しました。今回採用された音声変換システムは、脳の活動をデータ化し、音声合成装置と人工知能を組み合わせて、音を再構成するといったものです。

音の再構成は、神経活動から音響刺激の最良の近似を見つける逆写像技法で、もともと、神経の表現特性を研究するための方法として最初に提案されました。

神経応答の直感的な解釈が可能になるため、近年では、重度の麻痺患者の音声を回復するための脳から音声を出力する –脳コンピュータインタフェース(BCI)などに応用されています(論文内では、最終的な目標は、脳への直接的な伝達経路を作り出すことであるとも述べられている)

fMRIのおかげで、人々が話したり、他人の話を聞く際、脳内の特定部分が活性化される事実は数十年前から知られており、以前チームが行なった研究では神経データから音声を再構成することの実現可能性を確立しました。

しかし再構成された音声の品質はこれまで主観的評価に値するには低すぎたため、ブレイン – コンピュータインターフェース(BCI)アプリケーションに対する有用性を著しく制限してたとのこと。

そこで今回、チームは、最新のディープラーニング を組み合わせ、人間の聴覚皮質からの理解可能な音声を再構築しました。これらのモデルは、音声信号の統計的特性をより良くモデル化し、再構成された音声により完全な制約を課すことによって、精度を改善することができるとのこと。

まず、研究チームは、脳外科手術を予定している5人のてんかん患者の脳内に、一時的に電極を埋みました。5人の患者は文章を録音した音声を聞くように求められ、患者の脳活動データーはニューラルネットワークをベースとした音声認識ソフトの訓練に利用しました。

そして、研究者らは、同じ患者に音声を聞かせながら、ボコーダーを通過させることができる脳の信号を録音しました。

これらの信号に応答してボコーダによって生成された音を、ニューラルネットワークによって分析し、クリーンナップしたところ、一連の数字を暗唱するロボットのような声がしたとのこと。

音の正確さをテストした結果、人々は75%の精度で正しい言葉を理解できました。それは以前のどんな試みよりもはるかに精度が高いもので、以前の試みと比較したときと比べて明白だったとのこと。「敏感なボコーダーと強力なニューラルネットワークは、驚くべき正確性でした」とチームは研究成果について述べます。

 

音声再構成に及ぼす要因を調べる

音声再構成法の概略図 (A)被験者は元のスピーチ文を聞いた状態。聴取者の聴覚皮質における誘発神経活動のデーターは、音声刺激を再構築するために使用されました。被験者における反応電極は赤で示されている。

チームは、再構成精度に及ぼす要因として大きく以下の2つの因子の影響を調べました。

❶再構成を意図した音声の表現(スペクトログラムVS音声ボコーダ)

❷回帰手法(線形回帰VS非線形ディープニューラルネットワーク)

まず、表現の再構成の対象としてオーディオの2種類の音響表現、「スペクトログラム」と「音声ボコーダ」を用意しました。

次に、それぞれの表現の再構成において、2つの回帰モデル、「線形」と「非線形(DNN)」を比較し、2種類の音声表現と2種類の回帰モデルを使用して、以下の4つの組み合わせを作成しました。

スペクトログラム×線形回帰(水色)ボコーダー×線形回帰(紫スペクトログラム×DNN(ピンク)ボコーダー×DNN(濃い赤)

テストの結果、ボコーダを回帰するためにディープニューラルネットワークモデルを使用することが、その他の組み合わせよりも著しく優れており、75%の精度で再現できたとのこと。この結果は、神経復号化における非線形技術(DNN)の重要性を示しているとチームは述べます。

Mesgarani博士と彼のチームは次にもっと複雑な単語と文をテストすることを計画しており、最終的には、考えてることを直接言葉に翻訳する着用できる装置を目指しているとのこと。

例えば、着用者が「コップ一杯の水が必要だ」と考えた場合、システムはその考えによって生成された脳の信号を受け取り、それらを合成された言葉によるスピーチに変えることができます。これは、ゲームチェンジャーになるでしょう。けがであろうと病気であろうと、話す能力を失った人でも、周りの世界とつながる新たな機会を与えるのです。