【構音障害者音声を生成！？】学習データ不足を解消する魔法のデータ拡張技術とは

Sound 2024年07月26日

3つの要点
✔️ 構音障害者音声への微調整において、様々なデータ拡張技術の比較検討
✔️ 話者特性と発話内容特性を分離できるGANの新モデルの構築
✔️ 異なるデータ拡張と事前学習モデルを組み合わせることで、単語誤り率16%を達成

Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation
written by Huimeng Wang, Zengrui Jin, Mengzhe Geng, Shujie Hu, Guinan Li, Tianzi Wang, Haoning Xu, Xunying Liu
[Submitted on 1 Jan 2024]
comments:To appear at IEEE ICASSP 2024
subjects:Sound (cs.SD); Audio and Speech Processing (eess.AS)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

みなさんはじめまして！

AI-SCHILARの新人ライターの小笠原です。

今回紹介する論文はこれ

「自己監視学習（SSL）で事前学習された自動音声認識（ASR）システムの良性発声障害音声への微調整を改善するための対抗的データ拡張」

です。

冒頭でも要点をまとめた通り、様々なデータ拡張技術を比較して構音障害者音声の慢性的なデータ不足を解消することが目的のようですよ。

いったいどんな手法が用いられているんでしょうかね！私と一緒に少しずつ学んでいきましょう～～

できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。

この研究の意義

本研究の説明に入る前にみなさんに知ってほしい事柄があります。

それは、障害者音声認識の研究が難しい理由として、データが不足している・同じ障害でも話者間で大きく発音の傾向が異なるということです。

１つめは、理解しやすいと思います。構音障害者の中には、事故などの後天的な理由による方も多くいらっしゃるんですね。このような方々は、実験施設などの移動が難しい・話すという行為が体に負担である。

という理由からなかなかデータの収集が進まないという現状があります。

２つ目は、話者間によって発音の傾向が異なるため一般化されたモデルの構築が困難であるということです。これも障害者音声研究が一般化されない大きな要因であります。

この２つは進まない理由として特に大きい理由であり、ほかにも様々な問題がありなかなか解決が難しいというのが障害者音声研究の現状です。

人とコミュニケーションを満足に取れないというのは本当に苦しいことです。自己肯定感も下がりますし、社会参加からも遠のいていきます。

そんな構音障害者を１人でも自己肯定感をつけ、社会参加を促進させるため障害者音声研究はとても重要なのです！

提案手法

上の図(a)から(d)が本論文で提案されている手法です。

これだけ見て理解するのは難しいと思うので、１つずつ紐解いていきましょう。

この記事の目標は、読後にこの４つのモデルをみて理解できるようになることです。

先ほども話した通りかみ砕いて説明してくので、最後までついてきてくださいね！

まずは(a)を見ていこう

この（ａ）の手法はどちらかというと従来型のDCGANによるデータ拡張手法になっています。

ＤＣＧＡＮは簡単に説明すると、従来のGANのモデルにＣＮＮのような層が追加されたアップグレードモデルだと思っていただければＯＫです。

この手法では、正常な発話と障害者発話の並列データを用意します。発話の長さを合わせたうえで、生成器Ｇが正常発話から疑似障害者発話を生成し、識別機Ｄがその出力と実際の障害者発話を区別できるかといった感じに学習されていきます。

(ｂ)を見ていこう

この手法は、話者依存のスピード性能変化を追加したモデルです。

話者依存のスピード変化とはいっても、話者ごとに発話の速さは異なりますから、単純なスピード変化では不十分です。

そこで、話者ごとの発話速度を調整した正常発話を（ａ）のモデルに入力し、話者依存の疑似障害者発話を生成しています。

(ｃ)を見ていこう

さて次は、スペクトル基底ＧＡＮの手法についてですね。

ここまでの手法では、並列データが必要でした。しかしこちらの手法では、非並列データでも適用することが可能になっています。

正常発話と障害者発話のスペクトログラムをＳＶＤ分解し、生成器Ｇが固有ベクトルＵに、識別機Ｄがその種強くと実際の障害者発話を区別するように学習していきます。

ここで補足として、ＳＶＣ分類とはサポートベクターマシンを用いた分類タスクの事です。

(ｄ)を見ていこう

このモデルは、話者依存のスペクトル基底GANを用いた手法ですね。

(c)の手法を話者依存に拡張したものになっており、話者ごとに性能変化させた正常発話の固有ベクトルUに、生成器から送り、その結果を時間基底を用いて最終的な疑似障害者発話を生成します。

４つの手法を見て

はい。ここまで４つの手法を紹介していきましたが、みなさんついてこれましたか？

論文ってとても難しそうに見えますし、実際文章だけで理解しようとするのはとても高度は知識が必要になると思います。

しかし研究者たちも自分の考えや成果を良く知ってもらおうと色々と工夫されているんですね。その1つが、論文中にある図ですね。

与えられた図をよ～く見てみると色々なことが分かります。数式だったり提案したいモデルだったり文章だけでは理解しに憂いものとかね。みなさんもご自身で論文を読むときは図にも注目して読んでみてください！

理解できてる？ここまでの振り返り

大事なことはたった３つだけ！

これだけ押さえておこう！

構音障害者音声は希少であり、学習データが不足している
この学習データ不足を解消するための、データ拡張手法
データ不足を解消するだけでなく、音声認識精度を高めることが目標

この３つさえ、頭にあればあとは大丈夫！

次からは、実験についてみていくからね～

ここからが本番！実験について

ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。

使用したデータベース

このシステムの開発にあたっては、UASpeechというコーパスが使用されています。

このコーパスの特長は、健常者の音声だけではなく構音障害者の音声も含まれているということです。

余談ですが、日本にもITAコーパスを読み上げたものなど様々な音声データベースがあり利用できますが、そのどれもが健常者の音声を収録したものばかりで、障害者音声を収録したものは私が探した限りでは見つけることができませんでした。

冒頭でも話をした通り、構音障害者の音声を集めるのは困難を極め、さらにデータベースを作るとなるとなおさらではありますが、だれもが利用しやすいデータベースなしに障害者音声の研究は進むことはないと私は考えています。

日本でもデータベース研究が進展することを心から願っています。

実験設定

さて実験設定について話していきましょう。本実験では、生成された疑似障害者発話を評価するために、2つのSSLモデル（wav2vecとHuBERT）を使います。これらのモデルは事前学習されており、さらにファインチューニングされています。このモデルに対して、データ拡張の有無を比較することによりデータ拡張の有用性を示しています。

実験結果はいかに！

実験結果について、（ａ）～（ｄ）モデルを１つずつ確認していきましょう。

（ａ）の結果

このモデルは、ＤＣＧＡＮを用いたモデルでしたね。この手法においては、後に示すスピード性能変化モデルよりも優れた性能を示しました。SSLモデルを用いた単語誤り率の検討では、最大で9.03%ととても優れた結果を導きました。ただ、並列データが必要になるというのがどうしてもネックになります。

（ｂ）の結果

これは、話者依存のスピード性能変化とＤＣＧＡＮの組み合わせでしたね。この手法においては、単体での性能評価は論文中に明記されませんでしたが、（ａ）の手法との組み合わせで高い性能を示しました。

（ｃ）の結果

このモデルは、スペクトル基底GANのモデルでしたね。この手法は、データ拡張なしや通常のスピード性能変化よりも優れた性能を示しましたが、（ａ）よりは若干下回る性能でした。

（ｄ）の結果

これは、話者ごとの性能変化した正常発話に、（ｃ）で学習したＧＡＮの影響を与えたものでしたね。これはＧＡＮベースのデータ拡張手法において従来の手法を大きく上回る性能を示し、さらにはそれらを組み合わせることで最終的に単語誤り率16.53%というとても良い結果を導き出すことができました。

論文の総括

みなさんお疲れ様です。今回紹介したのは、４つデータ拡張手法を比較検討するというものでした。私としてはとても以外で面白い結果でした。ＳＶＣ分類などのやや複雑な処理を加えた手法よりＤＣＧＡＮを使用した比較的シンプルなモデルのほうが良い結果がでましたからね。

やはり研究はやってみなきゃわからない。仮説などひっくり返してしまえ～～というような感覚を味わえるとても良い論文でした。

本研究の成果をまとめてみると

構音障害者音声のデータ不足を解消するための手法として、データ拡張手法は有効である
ＤＣＧＡＮを用いた手法は、データ不足の解消だけでなく単語誤り率の改善も見られた

という２つの大きな成果があげられます。

ひよっこライター小笠原のちょっと雑談

お金が足りない。

開幕早々何をいっとんじゃ～～という話ではありますが、私の言うお金はお金でも研究費の事です。

私はとある国立大学の修士に在籍しているのですが、研究室に配属されたての頃は情報系はパソコンさえあればいいからお金あんまかかんなそうだな～と楽観視していました。でもいざ研究に取り組んでみると、あぁもっと良いＧＰＵが欲しいな～発表はしないけど情報収集であそこの学会行きたいな～ってどんどん出てきちゃうんですよね。

ＧＰＵは何十万するし、学会に行くのに交通費と宿泊費もかかるしもう少し修士学生にも研究費の援助が欲しいですね～まぁそこらへんで今回のひよっこ雑談はお開きにしましょう！

それでは次の記事でお会いしましょう。

新米ひよっこライターの小笠原でした～

じゃねばーい！

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！