【いままでの常識を覆す論文！？】構音障害者の特性じゃなく、ノイズで分類わけされていた！

Speech Recognition for the Dysarthric 2025年02月13日

3つの要点
✔️ UAspeechとTORGOのベータベースには、録音環境に大きな差がある
✔️ 発話部分より雑音部分を学習しているケースがおおい
✔️ 従来の研究では、構音障害者音声の特長ではなく、録音環境の違いを学習していた可能性がある

On using the UA-Speech and TORGO databases to validate automatic dysarthric speech classification approaches
written byGuilherme Schu, Parvaneh Janbakhshi, Ina Kodrasi
(Submitted on 16 Nov 2022)
Comments: Submitted to ICASSP 2023
Subjects: Audio and Speech Processing (eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

あたりまえを疑うことで、新たな発見が生まれることもある...

ココだけでもよんで！論文超要約！？

みなさんは構音障害って知っていますか？構音障害とは、言語を理解しているのにもかかわらず様々な要因から正しい発話ができない障害の事です。日本には３００万人いると言われている解決するべき社会的問題の１つです。

人と関わる上で言葉って大切ですよね。人とのコミュニケーションの大部分を占めるわけですので。しかし、この構音障害を持つ方たちは言葉が自由に操ることが難しいので、どうしてもコミュニケーションが円滑にとれず苦手意識を持ってしまうケースも多いのです。

今回の論文はそんな構音障害を自動的に分類するシステムに関する論文を紹介します。今回のカギとなるのはUAspeechとTORGOという２つのデータセット。この２つの共通点はともに構音障害者の音声を多数収録していること。とても有名なデータセットなので構音障害分野での様々な論文で使用されているんですよ。

さてさて本題へと移っていきましょう。構音障害は脳の損傷や神経系の損傷などによって引き起こされることが多い障害です。有名な病気だとALSとかですね。また、後天的な理由だけではなくて先天的な要因での構音障害もあるんですよ。

構音障害の診断って医師の主観的な判断によるため、とても難しく時間がかかるものでした。そこで、自動的に診断する事が出来るシステムの研究開発が行われ、その評価指標として、上記の２つのデータセットが広く使用されていきました。

この研究で扱うのは、この２つのデータセットの品質に関する問題。特に、健常者と障害者の録音環境や録音設定の違いが、システムの評価においてどのような影響を与える可能性があるのかです。

結果として、２つのデータセット間において健常者と障害者の録音のSNR（音声の中にどのぐらい雑音が含まれているか）に多きな差があることを示しました。また、多くの最先端分類手法において、発話部分よりも非発話部分（雑音）を使った方が良い分類精度を示すことが分かりました。

従来の研究においては、データセットの録音環境の違いがシステムの性能に大きく影響するとは考えられていませんでした。しかし、この研究の成果は多くのシステムにおいて実際には構音障害の特長を学習しているのではなく、録音環境の違いを学習している可能性が非常に高いことを示唆しています。

さてここで少し補足です。読者の中にはん？録音環境の違いでどうして構音障害と分類する精度が向上するんだ？それに雑音部分を学習してるってどういうこと？って思っている方もいるでしょう。

軽く構音障害音声の特長を抑えると、彼らの発話は不鮮明かつ不規則です。今回の論文で指摘しているのは”不規則”の方ですね。彼らは発話に使う筋肉が弱くなっているので、健常者からするととても力んでいるように発話するんですね。

ですからどうしても発声までに時間がかかるんです。ですからその発声までの録音時間が非発話音声つまり雑音となってしまいます。健常者の音声は、スムーズに発声できるので非発話区間が短いですよね。

つまりは従来のシステムは、健常者＝雑音が少ない。障害者＝雑音が多い。というように、障害者特有の特長を学習しているわけではなかったというお話なわけです。

分類アプローチにはどのようなものがあるのか...

さてここからは少し論文の内容を深く理解していきましょう。上の図をご覧ください。この図はこの論文で使われた構音障害を分類するためのアプローチです。

この論文で取られたアプローチ方法は大きく分けて３つあります。

サポートベクターマシン（SVM）
CNNやSRL
多層パーセプトロンとwav2vecを組み合わせたもの

SVMは主に画像認識の領域において有名な分類アルゴリズムですよね。CNNや多層パーセプトロンは機械学習手法としての知名度はトップクラスに高いのでみなさんご存じのことと思います。

wav2vecを少し説明を加えると、これは主に音声認識分野で使われている音声認識モデルです。特徴として、transformerという機構が用いられているんですね。このtransformerという機構がかなり革新的な技術で、それが生まれる以前と以後では音声認識精度のレベルが１段階いや３段階ぐらい異なります。

いま使われている主要な音声認識モデルたちは、軒並みこの機構が用いられていますよ。

さてさて実証結果はどうなったんですかね！見ていきましょう。

はたして分類結果は....

まずはUAspeechの結果から見てみましょう。

もう一度復習すると、この論文で示したいのは、どの分類手法が優れているかではなくて、構音障害の音声は、その特性を学習しているのではなく雑音の時間で分類しているということでしたね。

さてさて図に戻ると．．．あっ！本当ですね。

この図の数値は正解率【％】なので、数値が高い方が良い結果を示しています。例えば、一番上の、SVM+openSMILEを見てみると、Speechが81% Non-speechが84%ですよね。

他のアプローチの行を見ても、Non-speechのほうが分類精度が高くなっています。つまりは、この論文で指摘されていた通り、構音障害の分類において本来使いたいはずの構音障害の発話特性ではなく、雑音時間が分類に使われていたということですね。

つぎはTORGOですね。これは全体的にUAspeechより精度は低く出てますね。

私はどちらのデータセットも使用したことがあるのですが、全体的にTORGOはノイズが多かったりとあまり録音品質が良くない感じがありました。この要素も如実に実験結果に反映されていますね。

こちらにおいてもほぼ同様に、Non-speechの方が精度が高くなっていますね。２つのデータセットで検証しどちらも同じであるならば、論文で示したい仮説が正しい可能性が非常に高いです。

この論文において大切なことなので何回も書きますが、要するに今まで障害者の特性を学習させて作られていると思われていたシステムも、実は雑音時間の長さなどの録音環境要因によって分類されていた可能性が非常に高いということです。

論文とは、びっくり箱や～

これはまたびっくりする論文が出てきましたね。確かに私たち人間からすれば、機械学習の特徴量抽出や分類に関する流れはブラックボックス同然ですからね。

あくまで仮説を立てて実験で仮説が正しいことを示すことしかできません。また、一見すれば構音障害の特性を学習させて分類精度が上がったように見えますからなおさらたちが悪いです。

構音障害特有の特長を学習させ高精度をたたき出すためにはどのようなアプローチを取ればいいのかじっくりと研究していく必要がありそうです。

ひよっこライター小笠原のちょっと雑談

企業さんや大学院生の方で、共同研究を行っていただける方を募集中です！

専門は、音声認識（実験系）で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、１人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか？

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！