最新AI論文をキャッチアップ

【こんなところにwav2vec2を使うのっ!?】構音障害音声の特徴量抽出がより効率的になるんです

【こんなところにwav2vec2を使うのっ!?】構音障害音声の特徴量抽出がより効率的になるんです

Speech Recognition for the Dysarthric

3つの要点
✔️ wav2vec2.0を用いた特徴抽出により、発話から構音障害者の検出と重症度分類の精度が向上した
✔️ 検出には、wav2vec2の第1層からの特長が最も効果的であった

✔️ 重症度分類ではwav2vec2の最終層からの特長が最も高い精度を示した

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech
written by Farhad Javanmardi,Saska Tirronen,Manila Kodali,Sudarsana Reddy Kadiri,Paavo Alku
(Submitted on 25 Sep 2023, last revised 17 Oct 2023)
Comments: copyright 2023 IEEE. Personal use of this material is permitted. Permission from IEEE must be obtained for all other uses, in any current or future media, including reprinting/republishing this material for advertising or promotional purposes, creating new collective works, for resale or redistribution to servers or lists, or reuse of any copyrighted component of this work in other works
Subjects: Audio and Speech Processing (eess.AS); Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD); Signal Processing (eess.SP)


code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

Wav2vec2で効率的な特徴量抽出ができる!?

ココだけでもよんで!論文超要約!?

わたしは構音障害者音声認識を専門に論文読んだり記事書いたりしているので、いつも書き出しが「みなさんは構音障害者を知っていますか?」になってしまうんですよね~

なんかひねりが欲しいひねりが...思い浮かばなかった...

ハイ。ということで気を取り直して、みなさんは構音障害をご存じでしょうか?この記事を読んでくださっている時点で人並み以上には興味がある方たちでしょうからここでは簡単に。

構音障害とは、言語を理解していても発声器官の問題によって正確な発音ができない障害の事です。一口に構音障害といっても後天性か先天性か、麻痺性か否かなど様々な種類があり、それぞれに発話傾向が大きく異なるため、それにかかわる研究もなかなかに難航しています。

さて、構音障害には本当に様々な特徴があると言いましたね。ということは、彼らの発音を聞き比べて症状の重症度を判定するのはいかに腕の立つお医者さんでも至難の業なんですね。

そこで本記事では、wav2vec2を使った特徴量抽出による構音障害者音声の検出と重症度識別に関わる論文を一緒にかみ砕いていきましょう!

今回論文内でキーワードになってくるのが、麻痺性構音障害。これは主に神経系の損傷によって引き起こされる発話障害であり、患者の生活や質に大きな影響を与えます。

従来、この障害の評価は医者などによる主観的な判断にゆだねられていましたが、これには時間やコストがかかるほか、評価者の経験によって判断にばらつきが生じてしまうという問題点もありました。

この研究では、音声信号から直接的に麻痺性構音障害を検出しその重症度を自動的に分類するという課題に取り組んでいます。

その結果としては、wav2vec2モデルから抽出した特徴量を使用することで、障害の検出精度が93.95%に向上し、重症度の分類タスクにおいても44.56%に改善されました。特に、障害の検出にはモデルの初期層からの特長が、重症度の分類には後半層からの特長が効果的でした。

従来の研究では、スペクトログラムやMFCCなど音声信号を目に見える形に変更した音響特徴量が使用されていましたが、この研究により事前学習されたモデルを特徴量抽出器として利用することによりより高度で抽象的な特徴を抽出することが可能となり、従来の性能を上回る性能を達成しました。

さてさて、ここまでざっと紹介しましたがいかがでしょうか?主に音声認識の分野で活躍しているwav2vec2が特徴量抽出器として活躍しているのはとても意外でしたね。

しかも障害の検出タスクに至ってはほぼ95%の検出率!これは凄すぎます。重症度の分類は、45%ほどなのですべて自動でお任せすることは難しいですが評価担当の補助ツールとしては十二分に活躍できるのではないでしょうか?

さて次からは、wav2vec2のアーキテクチャーについて軽く触れた後に、もう少し論文の内容を深掘りしてみましょう。

Wav2vec2のアーキテクチャーをみていこう...

今回の提案手法のフローはこちらの図のようになっています、今回の図はかなり短縮化されたコンパクトな図で見やすいですね。

本記事ではwav2vec2のアーキテクチャーに関する説明は省きますので、分からないよとか忘れちゃったなというかたは読み終わってから復習することをお勧めします。このモデルはよく出てきますし、他の音声認識モデルもtransformerモデルならばどれも同じような構造ですからね。

さてこの図のフローについて見ていきますか、まずは(a)の検出システムから。

  1. 音声信号が入力される
  2. wav2vec2特徴量抽出器により、音声から特徴が抽出される
  3. SVM(サポートベクターマシン)を使用して特徴を分類する
  4. 分類結果により、健常か麻痺性構音障害かを予測する

これが予測の流れですね。流れもとてもシンプルで抽出した特徴を分類タスクにかけて、その結果で予測を行うというものでした、

次は、(b)の重症度分類システムについて見ていきましょう、

  1. 音声信号が入力される
  2. wav2vec2特徴量抽出器により、音声から特徴が抽出される
  3. SVM(サポートベクターマシン)を使用して特徴を分類する
  4. 重症度の判別

あれれ。(a)の流れでほぼ同じですね。そうなんです。検出においても重症度判別においても、結局分類タスクに過ぎません

ただ冒頭の要約にも記載した通り両者の間に明確な違いがあってそれは、検出にはwav2vec2の第1層が効率的なのに対し、重症度分類には最終層が効率的であったという実験結果が出ています。

wav2vec2を始めとするtransformerモデルは、各役割を担当する層が何層にも重なってできていますから、特徴量を抽出する層のなかでも、どんな特徴を抽出するのかという役割分担がされているのでしょう(推測)。

さて今回はwav2vec2を特徴量抽出器として使用し構音障害音声の特長を効率的に抽出していくことにより、構音障害音声検出タスクでは93%、重症度分類では44%もの精度改善を行うことができたという論文を紹介していきました。

検出タスクの方は、実践投入できそうなスコアですし分類も専門家の補助には役に立ちそうな精度ですよね~

日本だとあまり、障害の検出や重症度分類などの研究はされていないので、日本語でも同様に特徴量を抽出することができるのか気になりますね

それでは次の記事で!

ひよっこライター小笠原のちょっと雑談

 企業さんや大学院生の方で、共同研究を行っていただける方を募集中です!

専門は、音声認識(実験系)で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、1人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか?

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
アサさん avatar
どうもこんにちは! アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。 趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。 企業さんとの研究や共同研究していただける方大募集中です!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする