【構音障害の重症度分類を自動化！？】wav2vec2をも上回るSALRの導入実験

Speech Recognition for the Dysarthric 2024年09月22日

3つの要点
✔️ Transformerモデルを用いた客観的な失語症重症度評価手法を新たに提案
✔️ Speaker-Agnostic Latent Regularization (SALR)を導入
✔️ 従来手法を大きく上回る70.48%の高い正解率を達成

Speaker-Independent Dysarthria Severity Classification using Self-Supervised Transformers and Multi-Task Learning

written by Lauren Stumpf,Balasundaram Kadirvelu,Sigourney Waibel,A. Aldo Faisal
[Submitted on 29 Feb 2024]
Comments: 17 pages, 2 tables, 4 main figures, 2 supplemental figures, prepared for journal submission
Subjects: Neurons and Cognition (q-bio.NC); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

みなさんはじめまして！

AI-SCHILARの新人ライターの小笠原です。

今回紹介する論文はこれ

「Speaker-Independent Dysarthria Severity Classification using Self-Supervised Transformers and Multi-Task Learning」

です。

冒頭でも要点をまとめた通り、構音障害の重症度を客観的に自動評価することが目的のようですよ。

いったいどんな手法が用いられているんでしょうかね！私と一緒に少しずつ学んでいきましょう～～

できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。

この研究の概要

構音障害とは発話筋肉の制御が損なわれている状態であり、患者のコミュニケーションと生活の質に大きな影響を与えている。この障害は、とても複雑であり人間による評価はどうしても客観性に欠けてしまう。

この研究では、生の音声データから障害の重症度を自動的に評価するtransformerベースのフレームワークを提案している。これにより、人間の専門家による評価より、より客観的な評価が可能になる。

おさえておこう

構音障害とは？

先天性あるいは後天性の要因によって、言語を理解しているのにもかかわらず正確な発音が出来なくなってしまう障害です。後天性の要因としては、脳卒中や神経筋疾患などがありますね。

発話の特長は、個人差がとても大きいのですが一般的には発話の明瞭度が低下し、話し言葉が聞き取りにくいものとなります。これにより、対人とのコミュニケーションが著しく難しいものとなります。

これまでは、言語聴覚士による主観的な聴覚評価により患者の重症度が定められていました。しかしより客観的な評価手法が求められつつあります。

自己教師あり学習とは？

本論文では、wav2vec2.0というモデルが使用されています。このモデルの特長は、大量の教師なしデータから有用な部分を自動的に学習を行っていく手法です。とりわけ、大規模な教師あり学習を行うことが難しい音声分野で活躍しています。

Transformerとは？

Attentionメカリズムを使用した処理モデルになっており、主に自然言語処理や音声認識分野で優れた成果を上げています。入力全体の文脈をとらえることが可能なため、構音障害音声のような音声変化をモデル化するのに適しているとされている。

理解できてる？ここまでの振り返り

大事なことはたった３つだけ！

これだけ押さえておこう！

構音障害とは発話が正しくできない障害のこと
自己教師あり学習は、超絶大きい教師なし学習みたいなもん
transformerは、細かい変化をモデル化するのが得意

この３つさえ、頭にあればあとは大丈夫！

次からは、実験についてみていくからね～

ここからが本番！実験について

ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。

実験設定

１：データセット

この研究では、UA-Speechを使用しています。これは構音障害研究で広く使われている英語の音声コーパスです、なんとこのコーパス内には、１５名の障害者の発話音声が収録されています。日本語には無料で使える構音障害音声コーパスがないので、英語話者の多さが顕著に出ますね。日本語にも万能なコーパスが出ればよいのですが...

2:モデル

wav2vec2,0モデルを、構音障害重症度分類タスクに合わせてファインチューニングしています。なっなんとこのモデルは、960時間ものデータセットで事前学習されているんですね！これは、個人単位の開発じゃ再現できませんね...

まぁその他にも、準備項目はあるのですがとても踏み込んだ内容で難しいのでこの記事では省略しますね。

３：目的

構音障害の重症度を自動的に分類するシステムの開発を目指します。なおこの研究では性能を評価するにあたり、精度とＦ１スコアを使用しています。

実験結果はいかに！

はい。ここからは実験結果についてみていきますよ！論文内には実験結果がまとまった表が掲載されているのですが、パッと見て理解しにくいものだったため今回は文章でサックリと解説していきます。

結果として、構音障害の重症度分類タスクにおいて本論文で提唱されたモデルは他のモデルから大きく分類精度が改善しました。これはファインチューニング済みのwav2vec2よりも性能が良く、さらにF1スコアも同様に改善したため最高のパフォーマンスを示したようですね。

また、このモデルは極端は構音障害の重症度クラス分類に強いことが確認できました。例えば、非常に低いとか非常に高いとかの分類に優れていることが発見されました。しかし、ミドルクラスの分類については課題が残っているようですね。これは、カテゴリーのデータ不足とクラス間の明確な基準がないことに起因されていると考察されています。

論文の総括

う～ん。これは何とも言えない結果ですね。障害の分類において、極端な事例ってのはお医者さんも間違えずに迷うことなくできると思うんですよね。まぁ主観的な判断にはなってしまいますが...熟練のお医者さんでも迷ってしまうのが、ミドルクラスの分類なわけで。この課題が解決されたならばお医者さんも助かるし、患者側も客観的なデータを確認することができるので両者納得のいく判断を助長できるのではないかなと私は考えますね。

とはいえ、障害の分類をAIにやってもらおうというのは良いアプローチですよね。この考え方は構音障害以外にも適応できそうですし、画像認識とかだとさらに活躍の幅が広がりそうです！

ひよっこライター小笠原のちょっと雑談

私事ですが、博士課程への進学を決めました！

ネットだとよく博士は就職できないなんぞ言われていますが、それはもの凄く極端な例。それをスタンダードだと思わないほうが良いですよ。

私の所は、地方の国立大なので、博士進学する人は少ないんですけど、卒業生は研究所だったり大学で助教になったりと希望の進路を叶えられているようです。

まぁまた１年後に入試があるのがちょっと億劫ではありますが、まぁ何とかなるっしょの精神で楽しんでいきたいと思います！

それではここまで読んでくれた読者の皆さんに最大級の感謝を！

それじゃ、じゃっねばーい！

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！