最新AI論文をキャッチアップ

【便利さの享受は平等であれ!】構音障害者音声コーパス”EasyCallコーパス”

【便利さの享受は平等であれ!】構音障害者音声コーパス”EasyCallコーパス”

Speech Recognition for the Dysarthric

3つの要点
✔️ 構音障害者音声が31人分収録されている
✔️ 既存の音声認識システムでは構音障害者音声を十分に認識できていないことが明らかになった。

✔️ 構音障害者音声認識技術のさらなる発展に用いられることが期待されている

EasyCall corpus: a dysarthric speech dataset
written by Rosanna TurrisiArianna BracciaMarco EmanueleSimone GiuliettiMaura PugliattiMariachiara SensiLuciano FadigaLeonardo Badino
[Submitted on 6 Apr 2021]
Subjects:   Computation and Language (cs.CL)


code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

障害のある方は、便利さという果実を掴むことはできないこの現実...

ココだけでもよんで!論文超要約!?

みなさんは構音障害を知っていますか?構音障害とは、発音を理解しているのにもかかわらず、神経系または発声器官の問題により正常な発音ができない障害です。この構音障害、日本には400万人近くいるようです。今回の論文は、イタリアにおける構音障害についての研究を紹介します。

スマホアプリやスマートホーム技術など、音声を頼りに機器を捜査する機会が増えてきましたよね?これは音声認識技術の進歩により、認識の精度や雑音耐性が向上したからなんです。えっ?めちゃべんりじゃん。みんなハッピーハッピー!科学技術サイコーなのかというとそうではありません。

構音障害を持つ方の発音は健常者の発話と大きくかけ離れていることが多いため現代の音声認識システムでは十分な対応ができないのです。つまりは、音声操作の恩恵を全く受けることができません。

そこでイタリアの研究者たちは、構音障害者を31人集め、EasyCallコーパスを開発しました。このコーパスの焦点は、構音障害者が音声操作を利用してスマホを操作し、電話をかける動作です。

このコーパスは、31人の構音障害者と21人の健常者の録音音声で構成された大規模なコーパスです。このコーパスを利用し、既存の音声認識システムをテストしたところ、やはり構音障害者音声の認識は健常者音声に比べ難しいことが再確認されました。

構音障害の研究ってニッチな分野なので、使えるコーパスがないまたは少ない場合が多いんですよね。それはイタリアでも一緒だったようで、このコーパスの登場により構音障害者音声にかかわる研究が進展することが期待されています。

補足:2024年現在。日本にはオープンソースで利用できる構音障害者音声データセットはありません。研究者たちは個々でデータを収集し実験を行っています。みなさんは、じゃあその個々で収集したものみんなで共有すればいいのでは?

と思うでしょう。しかしそれができないのです。読み上げに利用するテキストの仕様規約の都合でね。コーパスを作成するのはかなり大変です、でも誰かが作成し示さなきゃこの分野の日本での発展は難しい...

研究する上での問題が山積みだぁ....

EasyCallコーパスはどんなコーパスになっているのか...

見てくださいよ~この大規模さ!

スマホで記事をご覧になっている方は、この図の字は小さくて見えないですよね?

この図には特に意味はなく、ただこのコーパスの大規模さを体感してほしかっただけなので、拡大して読みこもうをされなくて大丈夫ですよ。

さて、このコーパスをもう少し深掘りしていきましょうか。

このコーパスに録音されている方たちはすべて18才以上で、構音障害者音声には、パーキンソン病を始めとする様々な病気や障害に起因するものが使用されていますね。

私は医療の専門家ではないので詳しくは存じ上げないですが、ココに列挙されている病気は、筋肉や神経系が弱体化するような病気が多い印象です。

先の要約でも触れましたが、このコーパスはスマホの音声操作と電話を音声操作でかけるというシチュエーションの音声が多数収録されています。

例えば、電話番号を打つだったりスクロールダウンだったりですね。

私はあまり電話を使うという時がないので、これは実用的なのか?とも思ってしまいますが社会人のみなさんは電話をよく使っていらっしゃいますもんね。

とても実用性のあるデータですね

はたして構音障害音声は認識されるのか...

まぁせっかくこんなデッカイコーパスを作ったので、そりゃ計測して現状把握したくなりますよね?

本論文では、MicrosoftとIBMが提供する音声認識システムを使用して数値を計測しています。

これらの数値はWERという数値で、単語単位で認識を間違えた確率(%)を示すものです。

ですから、数値が低い方がエラいんです。今回は、ファインチューニングせずにそのままの状態で、健常者と構音障害者の音声を比較しているようです、

上の表を見てみると、健常者の音声は問題なく認識できていますね。では次に障害者音声の認識(右側)を見てみてください。

うん。まぁ予想通りまったく認識できていませんね。

なぜ構音障害者音声は認識されないのでしょうか?それは既存のモデルは健常者の音声をベースに学習されているからなんです。音声認識モデルは学習されていないことをアウトプットすることは出来ません。

構音障害音声は、音声認識モデルからすれば多言語同然なんです。健常者音声と大きな開きがありますからね。

この論文でも触れてありましたが、既存の健常者ベースのシステムでは十分に対応することは不可能です。このEasyCallコーパスのような構音障害者音声コーパスを用意し構音障害者に特化したシステムを開発していく必要がありそうです。

障害者も健常者も関係なく、等しく便利さを享受できるように....

すこし過激な発言かもしれませんが、この世の中に平等なんぞものは存在しません。今は、多様性の時代だ・みな平等にみな等しくなんて声高らかにご高説たれる方もいすが、これは机上の空論でしかないのです。

なんてったってこの世の中には、一例として健常者・障害者という明確な差が生まれてしまう多様な人々が存在しているのですから。この世の中において真に必要なものは、平等ではなく配慮もしくは救いの手を差し伸べる優しい心ですかね。

とは言ってみましたが、せめて科学技術に起因する便利さだけはみな平等に享受できるようになってほしいですし、なっていく必要があると思います。

誰もが等しく便利さを享受できる社会の実現のために、研究者たちは日々探究しているわけですね。やっぱりカッコいいし憧れちゃいますね!

毎回わたしの記事を読んでくださる読者の方がもしいれば、このトピックいっつもある!手抜きかぁ!って言われてしまいそうですが、わたしが私の研究をみなさんに伝えるうえで一番考えてほしいのはこの平等とはなにか?というトピックなんですね。

他の人から偽善者だって揶揄されてもいいじゃないですか。たとえ腹の内で違うことを考えてても、行為自体は明らかに善なんですから。

そもそも行動に移す勇気もない奴らに、あなたを揶揄する権利なんてありません

あなたの中の善・平等を信じて、胸張って行動すれば世界はきっと優しさであふれるものになると私は信じています。

ひよっこライター小笠原のちょっと雑談

 企業さんや大学院生の方で、共同研究を行っていただける方を募集中です!

専門は、音声認識(実験系)で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、1人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか?

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
アサさん avatar
どうもこんにちは! アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。 趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。 企業さんとの研究や共同研究していただける方大募集中です!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする