構音障害者も高齢者も見捨てない、A2A変換器による音声認識率改善

Speech Recognition for the Dysarthric 2024年12月25日

3つの要点
✔️ 自己教師あり学習（SSL）と従来の音声認識術を組み合わせ障害のある話者や高齢者の音声認識精度を大きく向上させた
✔️ 入力特徴量の場合は、様々な従来手法を融合させることが有効であること
✔️ 最大３０％程度の大幅な誤り率の改善

Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition
written by Shujie Hu, Xurong Xie, Mengzhe Geng, Zengrui Jin, Jiajun Deng, Guinan Li, Yi Wang, Mingyu Cui, Tianzi Wang, Helen Meng, Xunying Liu
[Submitted on 3 Jul 2024]
Comments: IEEE/ACM Transactions on Audio, Speech, and Language Processing
Subjects: Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Sound (cs.SD)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

障害のある方も高齢者も自分らしくいられる社会であるために...

ココだけでもよんで！論文超要約！？

音声認識って便利ですよね？タイピングもフリック入力も必要ないんですもん。今の時代スマートホームなんて言われていて、言葉さえあればなんだってできちゃいます。しかし、発音に問題を抱える構音障害者や高齢者はどうでしょう？現状としては、これらの技術は健常者を対象としたものであるため、最新技術の恩恵を受けることができないんですね。この問題に真摯に向き合っているのがこの論文になります。

さて、音声認識界隈ではSSL（通称：自己教師あり学習）が音声に関わる様々なタスクで好成績を収めていることはご存じのことでしょう。しかしこれらのモデルに直接、彼らの音声を入力しても、データ不足や音声特徴の違いにより十分な結果を得ることができません。そこでこの研究では、SSLモデルを効果的に活用し、彼らの音声に特化したシステムを構築することを目指しています。

この研究が向き合っている問題は大きく言うと、発音に問題を抱える方々の音声認識精度を向上したいということですよね。それでは少し大きすぎるのでもっと問題を小さくしてみましょう。この問題が起きる要因は２つ、データ不足と音声特徴の違いです。構音障害者の発話特徴と言えば、子音の欠落や不透明で不規則な発音ですかね。やっぱり健常者の発話とは大きく異なります。

この研究では、SSLモデルといくつかの従来手法を組み合わせるアプローチを提案しました。このアプローチにより、４つのデータセットにおいて最大３０％もの大幅な誤り率の改善を実現しています。

この研究以前では、彼らの音声をSSLモデルに直接適応するというアプローチが取られていましたが、十分な性能を出すことは出来ませんでした。しかし本研究では、SSLモデルの特長を活かしつつ、従来の手法を柔軟に取り入れることによりより高い性能を実現することを可能にしました。特に、重度の障害を持つ話者に対しての性能改善は顕著でした。

この成果は主に、データが不足している、あるいは標準的なデータとの特徴の差が大きい場合の音声認識タスクにも応用できるかもしれません。

最後に、この成果は障害者も高齢者も自分らしくコミュニケーションが取れる、つまりは自分らしくいられる社会を実現することに大きく寄与する重要な研究である。

A2A逆変換モデルとはなんなのか？どうして有効であるのか？

ここまで読んでくださったあなたに最大級の感謝を！

さぁここまで読んでくれたということはこの論文に興味があるということですよね？ここからはちょっと踏み込んだ内容を解説していきますよ～

さてさて上の図を見てください。これを一瞬で理解できる人はいないはず。これをじっくりと出来るだけかみ砕いて説明します。ココ論文の中でもすごく大切でしかも面白いところだと思うので。

まず初めにA2Aモデルってなんぞや？ってところを解説しようとおもいます。これは簡単に言うと、音声から違う形式の音声に変換するということです。この論文でいうと、音声特徴量から調音特徴量への変換ですね。補足として、調音ってのは発音するときの舌や唇の動きのことです。

さて次は、順序だててアーキテクチャーのワークフローを解説していきましょう。まずは軽く流れをおさえてみてください。

HuBERTエンコーダーの３段階ファインチューニング
A2Aモデルのトレーニング
A2Aモデルの逆変換

こんな感じです。もう少し詳しく見てみましょうか。

まずHuBERTエンコーダーを３つのデータセットを用いてファインチューニングを３回行います。１回目は健常者データ、２回目は構音障害者データ、３回目は健常者の調音データでファインチューニングを行います。なぜこんな面倒なことをするのかというと、様々なデータがあればあるほど様々な話者やタスクに対応したモデルを作ることが可能になるんです。

次にA2Aモデルのトレーニングでは、健常者の調音データから抽出した特徴量を入力として使用し、調音特徴量を出力として学習させていきます。これにより、音声特徴量から調音特徴量への変換を学習させることができます。

最後にA2Aモデルの逆変換では、データセットから抽出した音響特徴量をトレーニング済みのA2Aモデルに入力として与えることにより、構音障害者音声に対応する調音特徴量を生成します。

まぁこんな感じですかね。なんとなくでも掴むことができましたか？論文内にはもっと深く深くまで理論や構成が記されていますが、とりあえず核心となるポイントだけでも理解して帰って頂きたいです、

A2Aモデルはどこがすごいん？

さてまとめに入っていきましょう。実を言えばこの論文において、A2Aモデルは提案手法の中の１つにすぎません。

元の論文は１６ページもあるものすごく膨大な研究成果の報告書になっているんですね。ネット記事という媒体と、3000字以上の長文は相性が良くないため取捨選択をしなければなりません。いろいろと面白そうな手法や結果はあるけれど今回はA2Aモデルをちょっとだけ深ぼって紹介しました。

このアプローチの革新的な点は、異なるデータを段階的に使用して構音障害者音声に対する調音特徴量の推定を可能にしていることです。これはデータが限られている構音障害者とする話者に対して非常に有効な手段です。

障害者も高齢者もじぶんらしくコミュニケーションがとれる社会の実現のため、さらなる研究の発展に期待したいですね！

最後に、今回の論文では様々な実験が行われ興味深いデータがたくさん出ています。しかしあまりにも比較しているモデルが多いことや、検証しているタスクが多いため、実験結果の表がとんでもないギュウギュウ詰めとなっています。本記事でみなさんに知ってもらいたいことは、構音障害者と高齢者の音声認識における現状と、A2Aモデルというアプローチの仕方です。この２点を伝えられたので本記事では実験条件および実験については割愛します。

え～～興味あるんだけどというかたは、記事冒頭の論文へのリンクから原本にアクセスしてみてください！

ひよっこライター小笠原のちょっと雑談

企業さんや大学院生の方で、共同研究を行っていただける方を募集中です！

専門は、音声認識（実験系）で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、１人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか？

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！