【音声と画像の融合!?】マルチモーダル手法”AV-HuBERT”は構音障害者音声認識でも輝くのか!
3つの要点
✔️ 視覚情報を利用した構音障害者音声のマルチモーダルを初めて提案
✔️ VGGとAV-HuBERTの2種類学習
✔️ 音声の理解度と自然さを大幅に改善
Exploiting Audio-Visual Features with Pretrained AV-HuBERT for Multi-Modal Dysarthric Speech Reconstruction
written by Xueyuan Chen, Yuejiao Wang, Xixin Wu, Disong Wang, Zhiyong Wu, Xunying Liu, Helen Meng
[Submitted on 31 Jan 2024]
comments: To appear at IEEE ICASSP 2024
subjects:Sound (cs.SD); Audio and Speech Processing (eess.AS)
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
みなさんはじめまして!
AI-SCHILARの新人ライターの小笠原です。
今回紹介する論文はこれ
「視覚的特長を活用したAV-HuBERTによる構音障害者音声のマルチモーダル復元」
です。
冒頭でも要点をまとめた通り、構音障害者音声を改善するために視覚情報を使うことにより音声認識精度の向上を目指すが目的のようですよ。
いったいどんな手法が用いられているんでしょうかね!私と一緒に少しずつ学んでいきましょう~~
できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。
構音障害者とは
まず初めに、構音障害とは何かを押さえておきましょう。構音障害とは簡単に言うと、先天性あるいは後天性の何らかの要因によって発声器官に不具合が生じ、正常な発話ができない障害の事です。
この障害の多くは、後天性の脳性麻痺患者に多く見られます。また一括りに構音障害といっても発話の特長や傾向は千差万別であるというのが大きな特徴です。
このような特徴があることから、構音障害者音声認識分野の研究は難航しているといえます。構音障害者音声認識の流れは上の図をご覧ください。
この研究の概要
構音障害者の発話特徴をおさらいしましょう
- 不規則な発話
- 鼻にかかったような濁った発話
- 個人によって発話の特長や傾向が異なる
この3つが構音障害者の大きな特徴でしたね。
今回の研究では、この課題を視覚的情報と聴覚的情報の2つの情報を組み合わせたマルチモーダル技術によって音声認識精度の向上を目指していきます。
提案手法
上の図が本論文で提案されている手法です。
これだけ見て理解するのは難しいと思うので、1つずつ紐解いていきましょう。
この記事の目標は、読後にこのモデルをみて理解できるようになることです。
先ほども話した通りかみ砕いて説明してくので、最後までついてきてくださいね!
マルチモーダルとは
まずはこれから押さえておきましょう。マルチモーダルとは、複数の情報を使った手法のことです。例えば今回のような、音声情報×映像情報みたいな感じですね。
音声認識したいのに、映像情報を用いるって不思議な感じしません?でもね、音声認識の精度は向上するんですって。いや~一番初めに考案した研究者すごすぎ。
この手法は音声認識だけではなく、最近話題の生成タスクにも利用されているようですよ。
VGG
ディープラーニング手法の1つです。特徴は畳み込み層が3×3で統一されていること。これによりパラメータ数が少なくて済むんですね。
もっと詳しく話すこともできますが、今回はディープラーニングの1つだと覚えていただければ十分です。
AV-HuBERT
これはMetaが開発した、HuBERTの派生形モデルですね。これは、映像情報を用いたマルチモーダルなモデルであるため、音声認識の他に読唇などのタスクをこなすことも可能なモデルです。機械学習の手法としては自己教師あり学習モデルになります、
音声復元
音声合成ならびに声質変換技術は知っていますか?どちらも機械によって発話音声を作り出す技術です。とても画期的な技術ではあるのですが、どうしても話者性を維持するのが難しいんですよね。そこでこの音声復元という技術はより話者性を維持することを目的として開発されている技術です。
事前知識の習得をおえて
はい。ここまで予備知識を解説していきましたが、みなさんついてこれましたか?
この論文では3つの手法を比較検討しているのですが、今回押さえてほしいのはHuBERTの派生形であるAV-HuBERTの構造とモデルなので他の2つの手法は割愛させていただきます。興味のある方は原文を読んでみてくださいね。
さて手法を解説していきますか!
- 音声と画像が入力される
- 音声は音声特徴量抽出器に、画像は画像特徴量抽出器に送り込まれる
- 抽出された特徴は、ドッキングされる
- ドッキングされた特徴量は事前学習されたAV-HuBERTに送られる
- ARデコーダーで処理される
これがAV-HuBERTモデルを用いた流れになります。理解できました?最初はうっなんだこれは!と思った方もいたと思いますが、流れさえつかんでしまえば手法自体は意外とシンプルなんですよ。
今回の記事では、ざっくりと押さえてもらうことを目的としているので、細かい機構の説明や数式は省略しました。とにかく大枠をとらえて帰って頂きたいですから。
理解できてる?ここまでの振り返り
大事なことはたった3つだけ!
これだけ押さえておこう!
- 音声情報と画像情報のどちらも用いたマルチモーダル手法
- マルチモーダルを用いた音声認識手法はこの論文が初めて
- 音声復元の綺麗さと自然さを検証している
この3つさえ、頭にあればあとは大丈夫!
次からは、実験についてみていくからね~
ここからが本番!実験について
ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。
実験設定
さて実験設定について話していきましょう。本実験では、3つの英語の音声データセットが使用されています。またそのなかに障害者音声も含まれています。
ここで本研究の実験では、データセットに収録されている障害者音声の中から4名選択し、4名に合わせた個別のシステムを作ることによって検証を行っています。
実験結果はいかに!
こちらが今回の実験結果になります、注目していただきたいのは。左から3番目の列ですね。
これが今回の目玉、AV-HuBERTを用いた手法の文字誤り率結果になります。
結果としては文字誤りの削減に成功しています!しかし私の意見としては、システム開発の大変さとこの結果は釣り合っていないように感じました。ちょっとがっかりです。これはまだまだ研究の余地がありそうな分野ですね。
なぜがっかりかというと、通常のHuBERTを障害者音声に最適化した手法でも文字誤り率は改善するわけですね。まぁ簡単に言うとここまで大掛かりにやらんでもって感じですよ。
でもそれはあくまで文字誤り率のみを見たときの話。この手法で生成されるのは音声なんですよね。しかも話者性を維持した。そう考えるとこの実験結果はとても価値のあるものです。1対1でコミュニケーションをとるときに、使うことができるのならば格段にコミュニケーションの取りやすさがあがるでしょう。
この研究では主観的な比較検討として、聞き取りテストを行っています。AV-HuBERTのモデルではすべてスコアが上がっていますし、特に重症の患者ほどこのシステムが有効であることを示していました。
論文の総括
みなさんお疲れ様です。今回紹介したのは、視覚情報と音声情報によるマルチモーダル手法で話者性を維持した音声を生成するというものでした。私としてはとても面白い研究でした。文字認識率の向上はまずまずでしたが、話者性を維持しながらより聞き取りやすい音声を生成できるんですからね。
本研究の成果をまとめてみると
- 話者性を維持しながらも聞き取りやすい音声を現段階で生成可能である
- 音声生成タスクにおいてもマルチモーダル手法は有効である
という2つの大きな成果があげられます。
ひよっこライター小笠原のちょっと雑談
研究者への道は、長く険しい。
修士とって博士とってと、一般的な人よりも準備期間が長いですよね。しかも進めば進むほど難易度も上がる。ほんと長くて険しい。
そして博士とったあとにポストに就くことも簡単ではないときた。でももう決めたんだ。
進もう。
それでは次の記事でお会いしましょう。
新米ひよっこライターの小笠原でした~
じゃねばーい!
この記事に関するカテゴリー