【Unit-DSR】HuBERTによる障害者音声から健常者音声への正規化

self-supervised learning 2024年07月26日

3つの要点
✔️ 革新的な音声ユニットを用いた構音障害者音声再構成手法である
✔️ 高い汎用性と効率的な学習を実現可能なHuBERTモデル
✔️ シンプルな２モジュール構造による高機能化

UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization

written by Yuejiao Wang, Xixin Wu, Disong Wang, Lingwei Meng, Helen Meng
(Submitted on 26 Jan 2024)
Comments: Accepted to ICASSP 2024
Subjects: Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

みなさんはじめまして！

AI-SCHILARの新人ライターの小笠原です。

今回紹介する論文はこれ

「発話ユニット正規化を用いた構音障害者音声再構成システム」

です。

冒頭でも要点をまとめた通り、MeTA社が開発したモデル”HuBERT”を使用した革新的な音声再構成手法であるようで、構音障害者音声を自然で理解しやすい音声に変換しコミュニケーションの障壁を取り除くことが目的のようですよ。

いったいどんな手法が用いられているんでしょうかね！私と一緒に少しずつ学んでいきましょう～～

できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。

提案手法

上の図(a)が本論文で提案されている手法【Unit-DSR】です。

これだけ見て理解するのは難しいと思うので、１つずつ紐解いていきましょう。

Unit-DSRで大切なのは”たった”２つだけ！

まず初めに、Unit-DSRとは音声ユニット正規化器とUnit HiFi-GANから構築されたモデルです。

もう少し詳しく説明すると、

音声ユニット正規化器：構音障害者の発話を健常者の発話パターンに変換しデータを扱いやすくする役割
Unit HiFi-GAN：音声ユニット正規化器で得られたデータから直接音声を生成する役割

この２つを覚えていただくとグッと後の理解が深まると思いますよ！

この研究の要”HuBERT”

さて提案手法の大事なところを学んでもらったところで、ここからはモデルの深掘りをしていきますよ～

ゆっくりすすめるのでしっかりとついてきてくださいね。

まずHuBERTの紹介を。

端的に言えば、HuBERTはBERTの進化形です。

もう少し詳しくいうと、自己教師あり学習モデルであり、k_means法を用いた音声の分類によって疑似ラベルを作成し、マスクされた領域にのみ予測損失を適応していくことによって音声を学習していくモデルです。

私的には、自己教師あり学習モデルであるというところが肝ですね。なぜなら、構音障害者の音声を収集するのはとても大変なんです。特に、脳性麻痺患者の方の多くは”話す”という行為自体がとても苦痛をともなうんです。

近年のAIモデルの多くは、膨大な学習データが必要になりつつありますから、自己教師あり学習は、構音障害者の音声認識の分野において特に大事なモデルの１つです。このモデルは、githabにてソースコードが公開されているので興味がある方は自分で実装してみるとより理解が深まりますよ。

難しくないよ！損失関数”CTC Loss”

損失関数とは、予測値と正解地との”ズレ”を計算するもの。今回の手法では、CTC Lossが使われていますね。

CTC Lossってなによ？

って方のために開設すると、時系列データのラベル付けを行われる際によく使われる損失関数です。

音声認識の分野ではよく使われるので、”時系列データのラベル付けを行われる際によく使われる”ということだけでも覚えて帰ってくださいね！

補足として、この関数を使うメリットを軽く解説すると、入力系列（音声）と出力系列（文字列）の長さが違っても適切な並べ方を自動的に見つけてくれるということが挙げられます。

いよいよ図の解説に移ります！

モデルの説明

ここまでは、この図を理解できる知識を習得していただく前座でした。

さてさてここからが楽しい図の理解タイムです。

一緒に読み解いていきましょう！

まずは左の青スタートから

対象者の音声(健常者か障害者)が参照
HuBERTモデルに読み込まれて重みが初期化されて音声ユニット正規化器にいくものとk_means modelにいくものがある(今回は後者を解説)
k_means model に入ると音声は系列という数字の列に変換される
系列を読み込んで重視を削除
CTC Lossへ

この一連のプロセスは、正規化ユニットの抽出を表しています。

次に右の緑スタート

ランダムに選ばれた音声（健常者か障害者）を参照
音声ユニット正規化器へ
音声波形が再構成された正規化ユニット系列へ
HiFi GANによって音声が生成

これが提案手法の大まかな流れです。

細かい理論はやや難しいので、まずはこの手法の大枠を掴んでいただきたいです。

とにかく嚙み砕いて嚙み砕いてここまで説明してきましたが、ついてこれているでしょうか？

ではここで一旦、学んできたことを振り返りましょう！

理解できてる？ここまでの振り返り

大事なことはたった３つだけ！

これだけ押さえておこう！

Unit-DSRとは音声ユニット正規化器とUnit HiFi-GANから構築されたモデル
HuBERTはBERTの進化形
損失関数とは、予測値と正解地との”ズレ”を計算するもの

この３つさえ、頭にあればあとは大丈夫！

次からは、実験についてみていくからね～

ここからが本番！実験について

ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。

使用したデータベース

このシステムの開発にあたっては、UASpeechというコーパスが使用されています。

このコーパスの特長は、健常者の音声だけではなく構音障害者の音声も含まれているということです。

余談ですが、日本にもITAコーパスを読み上げたものなど様々な音声データベースがあり利用できますが、そのどれもが健常者の音声を収録したものばかりで、障害者音声を収録したものは私が探した限りでは見つけることができませんでした。

冒頭でも話をした通り、構音障害者の音声を集めるのは困難を極め、さらにデータベースを作るとなるとなおさらではありますが、だれもが利用しやすいデータベースなしに障害者音声の研究は進むことはないと私は考えています。

日本でもデータベース研究が進展することを心から願っています。

使用したシステム設計

本実験で使用しているシステムは、先ほど図(a)で示したUnit-DSRシステムです。

実験条件において、細かなパラメータの調整や各レイヤー詳細についての説明がなされていますが、本記事の趣旨は論文の大枠を掴んでいただくことなので割愛させていただきます。

興味のある方は論文のURLを記載してありますのでぜひご自身で読んでみてください！

実験結果はいかに！

この提案手法の性能は従来のものと比べて上がっているのでしょうか？

２つの観点から実験結果をみていきましょう。

１：コンテンツ復元について

この項目を評価するにあたっては、MOSテストと音声認識テストが行われています。

MOSテストというのは、リスナー（20人）を用意し無作為に選んだ再構成音声と元の音声を実際に聞き比べてもらい、この２つはどのくらい似ているのか疑似評価してもらうテストであり、主観的なデータを集めるために実施されました。

続いて音声認識テストです。こちらは客観的なデータを集めるために行われ、Jasperとよばれる音声認識モデルを用いて単語誤り率の測定が行われました。

上の画像が、結果になります。黄色いマーカーが引かれている箇所が本実験のシステムです。

結論から言うと、このシステムは正確なコンテンツと発音音声を再構成することの有用性がきちんと示されています。

ただし、再構成された音声には音素誤りが多く残っていることが課題であり、音声認識テストの結果は芳しくありません。

それでも、従来のモデルよりも大幅に上回るコンテンツ復元精度であることを示せたことは、とても素晴らしいことであり喜ばしいことです。

２：音源環境の変化によって精度に影響は出るのか

この評価項目では、入力音声の分布の変化によって再構成された正規化ユニットにどの程度影響するのかを検証しています。

具体的には、構音障害音声の再生速度を変化させ、患者の発話速度の変化をシュミレーションしています。そして様々な録音条件を考慮するため、ノイズを意図的に追加します。

この評価実験としては、Unit-DSRシステムは入力音声の分布変動に対して強いという性質を持っていることを確認できました。

私としては、この結果にとてもワクワク感を覚えます。

なぜなら、雑音にも強いということは、日常の会話だったり出先での人とのコミュニケーションだったりで実用できる可能性が大いに向上するからです。

従来のモデルは、特に構音障害者の音声においてはノイズに弱いところがあり、実験用の録音環境下という特殊な空間のみでしか精度が出ませんでしたから。これはとても革新的な技術といわざるを得ません。

論文の総括

こんかい提案したUnit-DSRシステムは、構音障害音声を健常者音声のパターンに正規化し音声ユニットから直接波形を生成するというものでした。

本研究の成果をまとめてみると

DSRタスクにおいて、音声ユニットを初めて導入し、従来のモデルを上回る性能を記録
高い適応能力をもつHuBERTを用いることによって学習効率が大幅に向上

という２つの大きな成果があげられます。

ひよっこライター小笠原のちょっと雑談

いや～この論文はとても画期的な内容が書かれていて本当に目から鱗が落ちるようでしたよ

私が考えるこの論文のすごいなと思うポイントを２つまとめると

自己教師あり学習モデルを用いることで、学習データの不足を解消している
雑音環境下にも強いモデルを提唱している

ってところですね。

私は、英語の論文よりも日本語で書かれてた論文を読むことが多く、どの論文にも課題として以上の２つをあげてらっしゃる方が多いんです。この論文ではその課題に対する１つの解を見つけているのは本当にすごいとおもいます。

ただ、この実験とても大規模なんですね。障害者音声も複数人のものを使っていますし、音声データベースも数千時間にも及ぶものを使っていますので。

この量を学習させようとなると、高額なGPUが数台必要となり資金力も求められてしまいますから、この実験をさらに発展させようとするのはやや厳しい感じがするのが残念なところではありますね。

ここら辺で雑談を切り上げるとしますか。

さてさて、最後まで読んでくださった読者の皆さん本当にありがとうございました。

新米ひよっこライターの記事ということで、読みにくい・分かりにくいといった箇所もちらほらあったかもしれません。

それでも最後まで読んでくださった皆さんに、少しでも面白い知識を与えることができたならとてもうれしい限りです。

それでは次の記事でお会いしましょう。

新米ひよっこライターの小笠原でした～

じゃねばーい！

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！