【超絶無理難題級の分類タスク！？】WHFEMDアルゴリズムで構音障害音声の特長を正確かつ効率的に捉え分類せよ

Speech Recognition for the Dysarthric 2025年02月14日

3つの要点
✔️ 構音障害のための新しい特徴量抽出アルゴリズム（WHFEMD）の提案
✔️ 構音障害音声特有の、不鮮明かつ不安定という特徴に強い
✔️ 従来のアルゴリズムに比べ、構音障害の重症度分類の精度は向上した

Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform
written by Ting Zhu, Shufei Duan, Camille Dingam, Huizhi Liang, Wei Zhang
(Submitted on 30 Dec 2023)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Signal Processing (eess.SP)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

構音障害音声の特性を正確かつ効率的に捉えるために...

ココだけでもよんで！論文超要約！？

いまの世の中、スマホやスマート家電など何でも音声操作でチャチャッと家事や仕事ができて本当に便利ですよね。

この便利さというのは、人工知能の発展により大幅に音声認識率が向上したことに起因するわけですが。さてさて、みなさんは構音障害って知っていますか？まぁこの記事を読んでくださっているということは、ある程度は知ってくれていると思いますが、まったく知らないよという方に向けてちょっと説明を。

構音障害とは、言語を理解しているのにもかかわらず神経系に起因する異常などにより正しい発音ができない障害の事です。この障害で有名なのは、ALSなどの脳性麻痺患者ですが、そうではない鼻などに起因する先天性のものも存在するんですよ。

現代に限ったことではないですが、人とのコミュニケーションにおいて音声情報ってめちゃくちゃ大事だと思うんですよ。しかし、構音障害を抱える方たちは彼らなりに工夫を凝らしてはいるものの、他者と円滑にコミュニケーションが取れず、人との関わりに苦手意識を持ってしまう方も少なくはありません。

今回はそんな構音障害を持つ方を支援しようとする論文を紹介していきます。

冒頭でも話しましたが、電子機器の音声操作って便利ですよね～機械が苦手な方でも安心して操作可能なため、実にユーザーフレンドリーな技術だと感じています。しかし、声に障害をもつ構音障害者たちはその便利さを享受することができないんですね。

なぜなら現存のシステムは健常者が利用することを想定し設計されており、構音障害の音声を正確に処理する技術が組み込まれていないんです。

そこで、この研究では構音障害音声の不鮮明で不安定という特徴に焦点をあて、それを効率的にとらえる手法が提案されています。

もう少し踏み込むと、構音障害者の発話の複雑な特徴を正確にとらえ、それを用いて障害の重症度を分類することで、医療診断や治療計画に役立てようというプロジェクトです。

論文にて提案されたのは、WHFEMDと呼ばれるアルゴリズムです。これにより、従来の方法と比べ高い精度で構音障害の重症度を分類することが可能になりました。

従来の研究では、MFCCやLPCなどの音響的特徴量を用いた構音障害音声の分析が一般的でしたが、これでは十分に彼らの発話特徴を捉えることは不可能でした。本研究のアルゴリズムでは、彼らの複雑な発話特徴を正確にとらえることが可能になり、結果として分類精度が向上しました。

さてさてざざっと論文の内容をまとめてみました。従来の手法だと正確性に欠けるので、これまでは重症度の分類は医師や言語聴覚士が行っていました。でも人が判定するって主観的で客観性に欠けますし、何より判定する方たちの負担は相当なものでしょう。

本日のメインディッシュである、WHFEMDってどんなアルゴリズムで具体的にどんな結果がでたのか気になりません？

次からは、もう少し踏み込んだ説明をしていきます！ぜひ興味のある方は最後までお付き合いください。

WHFEMDのアーキテクチャーはどうなっているのか...

ででん。こちらの図が提案アルゴリズムの概念図になります！なんだか知らない略語がいっぱい...ワカラン。

ご心配なさらず。１つ１つかみ砕いて出来るだけ分かりやすく解説しますよ！

初めに音声が通るのがFFT。これは高速フーリエ変換と呼ばれる信号処理で、音声信号を周波数領域に変換します、

次にEMD。これは経験的モード分解といって、信号を複数の内在的モード関数（IMF）に分解します。このことにより、信号の不透明・不安定な特徴を捉えることができるようになります。

IMFをものすごくかみ砕いて説明すると、複雑な信号を単純な波形の集まりに分解すること。音楽で例えるならば、オーケストラの合奏を、楽器単位の演奏に分けるみたいな感じですかね。

FWHTは、高速ウォルシュ・アダマール変換という処理ですが、理屈はかなりむず会いので今回は特徴量抽出にも用いられるとだけ覚えておけば結構です。

特徴量抽出が終わると。構音障害者の分類タスクに使われ、入力音声にラベル（症状の程度）が出力されます。

さて次は手法の性能評価について見ていきましょう！

最先端手法と肩を並べることはできるのか....

手法の評価には、UAspeechとTORGOという構音障害音声をあつめた二つのコーパスが使われています。

どちらも有名なコーパスですから、この構音障害音声分野に興味がある方は覚えておくと良いですよ～特徴としては、ＵＡは重症度ごとに話者が分類されているので研究で使いやすいですし、単語を複数回読み上げた音声が収録されているためデータ量も申し分ないです。それに比べTORGOは１人ごとの読み上げ音声数が少なく、ノイズ交じりの音声で録音品質はお世辞にも良いとは言えません。

まぁこれは作られた年代が異なりますから仕方がないことなんですけどね。

さてさて、結果としては最先端の分類タスクと性能の比較が行われました。その結果、この提案手法は、最先端の手法と肩を並べるほどの高性能さを発揮しました！

やはり構音障害音声特有の特性に注目し、それにあわせた機構を選択できていることがこの性能に寄与したのではないかと私は考えていますね。

研究者にもパーソナルカラー的なものがある...

さてさて、今回は構音障害音声の分類タスク手法について見てきました。私がこのライターの仕事を始めて半年ほどで１０数本の論文を読みましたが、やはり構音障害の分野だと分類タスクの研究が多いですね。

それほど現場で必要とされている技術だということですかね。私的には、音声認識の方をもっと進めてほしいなと思うんですがね。

同じ分類タスクでも、各研究者ごとに色があってただ単に性能だけみて判断するのはもったいないぐらい考えられているんです。

私が読んだ論文の中には、今の分類タスクの研究の仕方に一石をとおじるものもありましたしね。

今後の構音障害音声分野の研究の動向も要注目です！

今回はここまでにしましょうか。それでは次の記事で会いましょう～

ひよっこライター小笠原のちょっと雑談

企業さんや大学院生の方で、共同研究を行っていただける方を募集中です！

専門は、音声認識（実験系）で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、１人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか？

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！