【構音障害者でも音声起動システムを使いたいっ!】音声起動システムのためのコーパスと音声起動システムとは?
3つの要点
✔️ 中国語の構音障害音声コーパスを構築し公開。音声起動研究のためのリソースを公開している。
✔️ MDSCを用いた包括的な実験による分析を実施した。また構音障害における音声起動システムの課題を明らかにした。
✔️ 構音障害者向けの音声起動システムを提案し、明瞭度の違いに対し強く、優れた性能であった。
Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design
written by Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee
[Submitted on 14 Jun 2024]
Comments:to be published in Interspeech 2024
Subjects: Computation and Language (cs.CL)
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
みなさんはじめまして!
AI-SCHILARの新人ライターの小笠原です。
今回紹介する論文はこれ
「Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design」
です。
冒頭でも要点をまとめた通り、中国語の構音障害者音声コーパスを開発し公開したことや音声起動システムの発案が目的のようですよ。
いったいどんな手法が用いられているんでしょうかね!私と一緒に少しずつ学んでいきましょう~~
できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。
この研究の概要
例えば、スイッチボットやAmazonのアレクサなどのスマートホーム技術の発展によって機器の音声操作が一般的になりました。しかし発音に問題を抱える構音障害者はその恩恵を受けにくい状況にあります。
そこでこの研究では、中国語の構音障害者音声コーパスを作成し公開したほか、MDSCを用いた構音障害者の音声起動に関する実験と分析を行っています。
その結果、構音障害者の音声は個人差がとても大きくまた、データ量が限られていることが分かりました。また提案したシステムは約3分で話者の発話に適応し明瞭度の違いに強く優れた結果でしたが、重度の構音障害者においてはさらなる検討が必要という結果になりました。
おさえておこう
構音障害とは?
先天性あるいは後天性の要因によって、言語を理解しているのにもかかわらず正確な発音が出来なくなってしまう障害です。後天性の要因としては、脳卒中や神経筋疾患などがありますね。
発話の特長は、個人差がとても大きいのですが一般的には発話の明瞭度が低下し、話し言葉が聞き取りにくいものとなります。これにより、対人とのコミュニケーションが著しく難しいものとなります。
音声起動とは?
”Hey Siri”や”OK!Google”など特定のワードで機器を起動させる技術ですね。発音が悪いと使えないんですよ~
PERとWERとは?
これは音声認識によく使われる評価指標の事です。PERは発音の最小単位である音素を単位として測定されるから音素誤り率。WERは単語単位で測定されるから単語誤り率ともいいます。
理解できてる?ここまでの振り返り
大事なことはたった3つだけ!
これだけ押さえておこう!
- 構音障害とは、発音を理解していても正しい発音ができない障害
- 音声起動は、Hey!SiriでSiriが起動するようなこと
- 評価指標として、PERとWERはよく使われている
この3つさえ、頭にあればあとは大丈夫!
MDSCとはなんなのか?どんなコーパスなの?
この研究では、中国語の構音障害者を対象とした音声コーパスを開発し公開していますよね。これ、一体どんなものなのか気になりませんか?
気にならないよ~って方は次のトピックに移って構いません。ちょっと深掘りしてみるので気になる方はぜひお付き合いください。
目的
このコーパスの目的は、音声起動システムを研究するための中国語構音障害者コーパスです。あくまで、音声起動システム研究用なので、録音されている単語もそれ関連の単語となっています。
正直、使い道が限定されすぎており、かつ中国語ですから私たちの生活とは無縁の産物でしょう。しかしこの音声起動システムを設計するためのコーパスを作るというアイデアがとても参考になるんですよね。日本語でも誰かがやらないとこの分野は発展しないわけですから。
特長と内容
このコーパスには、約10時間分の構音障害者音声と約8時間分の非構音障害者の音声が収録されています。結構データが集まっていますよね~さすが話者数の多い中国語です。
日本語でも構音障害者向けのコーパス(*できればオープンなものを)作成してみたいんですけど、日本語話者は英語や中国語に比べて少ないですし、いい方はちょっと悪いかもしれませんが日本って障害を持つ方の社会進出が諸外国と比べて遅れているような感じがするんですよね。
そんなこともありなかなか被験者が集まらないという実態があります。
ちょっとわき道にそれましたが続きを。収録されているのは、音声起動システムのカギとなる起動ワードとその他のコマンドのためのワードですね。合計360単語ほど収録されています。
ここからが本番!実験について
ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。
どんな実験?
個々の構音障害者に適応した音声起動システムの性能評価のための実験です。
実験設定
1:データセット
この実験で用いるのは先ほど説明した、MDSCです。中国語構音障害者音声が約16時間分収録された音声起動システム研究のためのデータセットとなります。
2:被験者
MDSCの中から選出
3:評価指標
PERおよびWERを使用しシステムの性能評価を行っていきます。
実験結果はいかに!
それでは実験結果公表の儀を行います!いきますよせーのっ!
パッ!なんか3つモデルが見えますね~でもこの論文で取り扱いたいのは、SDDグラフ上では黒い棒線ですね。それに注目してください。
見てください!これが実験結果となります。とても分かりやすくまとまっている図ではありますが、少し大切なところを解説していきますね。
- SDDモデルの優位性:すべての話者において最も低いスコアを示しているのはSDDです。これは誤り率を測定したものなので低い方がモデルとして優れている。そしてこのモデルは約3分で話者の発話に適応できるみたいです。
- 明瞭度による改善度の違い:中程度の明瞭度を持つ話者の場合、一番改善率が高いのはSDDモデルです。これは中適度の話者において、話者適応が有効な手段であることを示していますが、もちろん課題もあります。それは、もっとも明瞭度の低い話者における改善率の伸びは、中程度話者の伸びよりも小さいというものですね。
- SDDモデルの必要性:SIDグラフだと赤い棒は、構音障害者音声全体を学習させたものです。これも多くの場合改善が見られるんですが、明瞭度の高い話者の場合は改善率が悪化したりと性能は限定的です。一方でSDDこれは個人適応を行ったものは、すべての話者において改善されていることから、SDDの必要性を感じていただくことができるだろう。
はい。この研究成果の中でも特に大切だと思う3つをまとめてみました。この結果から、中国語構音障害者音声コーパスの有効性と、SDDシステムの必要性を掴むことができたと思います。
論文の総括
今回は中国語における研究でしたので、なんやワイらの生活と関係ないやん。と思われた方もいることでしょう。ですが、それは違うんですよ。他の言語で出来るなら日本語でも同様の結果を得られるはずなんですね。日本語は話者がどうしても中国語よりも少なくなってしまいますし、その中で構音障害者を見つけ被験者になって頂けるか相談しなくてはならない。私は学生なので、謝礼金は出せないしそもそもちゃんと取り合ってくれるかどうか疑問なことでもあるんです。しかし誰かがやらねばこの分野の発展はない。そういうことです。
ひよっこライター小笠原のちょっと雑談
企業さんや大学院生の方で、共同研究を行っていただける方を募集中です!
専門は、音声認識(実験系)で特に構音障害者を対象に扱っています。
この分野は、使えるリソースが限られていますので、1人で取り組むのでは必ず限界が来ます。
どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか?
この記事に関するカテゴリー