【誰もが便利さを享受するために...】whisperを利用した構音障害者音声の話者適応

Speech Recognition for the Dysarthric 2025年02月18日

3つの要点
✔️ Whisperモデルに対し、P-Tuningを用いた話者適法手法を提案した
✔️ 提案手法は、CERを１３％改善した
✔️ 高い柔軟性をもち、様々な構成において性能向上を示した

Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition
written by Yicong Jiang,Tianzi Wang,Xurong Xie,Juan Liu,Wei Sun,Nan Yan,Hui Chen,Lan Wang,Xunying Liu,Feng Tian
[Submitted on 14 Jun 2024]
Comments: Accepted by interspeech 2024
Subjects: Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Sound (cs.SD)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

だれもが科学技術の恩恵を享受できるように...

ココだけでもよんで！論文超要約！？

近年音声認識の精度がものすごく向上していると思いませんか？例えば、iosならsiriが、androidならgoogleアシスタントが搭載されていますよね。「音楽かけて！」とか「今日の天気は？」とか色々なことを自分の音声で操作出来ちゃいます。

そんな中で、chatGPTでおなじみのOpenAI社から高性能大規模モデルであるwhisperという音声認識モデルが登場し、googleをも超えるモデル性能だとして一時期注目を集めました。

さて、今回の論文はそんなwhisperモデルを使用した、話者適応に関する研究です。発音に問題を抱え上手く音声認識を使えない方たちの声を個別に学習させることで認識精度を向上させようと試みられていますよ。

構音障害者は、主に神経系の損傷により発話に関わる筋肉のコントロールが難しくなり、不明瞭で不安定なは発音になってしまうという問題を抱えています。またこのような背景から、機械学習のための大規模なデータ収集が困難であることも、構音障害者音声認識分野の研究の発展が進まない要因の１つでもあります。

今回の論文では、主に構音障害のある話者の音声の認識率改善や限られたデータ下での効果的な話者適応手法の提案という大きく２つの問題に取り組んでいます。

研究の結果として、提案手法はwhisperのBaselineに対して文字誤り率を13%削減することに成功しました。また、この手法は特に重度の構音障害者の音声に対して有効であることを示しました。

さて、従来の構音障害者の音声認識には専用のモデルや複雑な話者適応手法が必要であると考えられていました。しかし、この研究により大規模な事前学習モデル（whisper）と効率的な適応手法を組み合わせることで、より高い認識精度を示すことが可能であることを示すことができました。

構音障害を持つ方も持たない方もみな等しく、科学技術の恩恵を受けることができるよう、そして構音障害を持つ方々のコミュニケーションを支援できるようにより手軽な適応手法や認識手法を模索していく必要がありますね。

whisperにどう話者適応アルゴリズムを組み込むのか...

ここまで読んでくださったあなたに最大級の感謝を！

さぁここまで読んでくれたということはこの論文に興味があるということですよね？ここからはちょっと踏み込んだ内容を解説していきますよ～

さてさて上の図を見てください。これを一瞬で理解できる人はいないはず。これをじっくりと出来るだけかみ砕いて説明します。ココ論文の中でもすごく大切でしかも面白いところだと思うので。

このアーキテクチャーのフローを簡単に紹介しますね

入力処理
プロンプト生成
whisperモデルの処理
デコーディング
適応メカニズム

まずは入力処理。これはみなさんのご想像の通り、音声の特徴量が入力されます。

その特徴量たちは、出力層を出ると話者プロンプトというものを生成します。詳しい話は省きます。それは、whisperモデルへと渡されると２つの畳み込み層を通過後、transformerエンコーダーへと処理が引き継がれていきます。

さてさて、エンコーダーでの処理を終えるとデコーダーに渡され、テキスト出力の生成が行われます。

話者プロンプトは入力の前後に使用され、モデルに話者特有の情報を与えることにより、モデルは個々の話者特性に適応可能となり、認識精度を向上させることができます。

かな～り大味な解説になってしまいましたが、なんとか上澄みだけでも掴めたでしょうか？こういうようなアーキテクチャーは深くまで理解するのはとても難しいです。しかしそのアーキテクチャーの本質というのは大抵、上澄みの知識にあるのでなんとなくでも理解できれば良いのではないかなと私は思いますね。

はたして構音障害音声は認識されるようになったのか...

最後にこの研究の成果についてみていきましょうか！上の表を見てください。これは構音障害音声の音声認識のための異なるモデルと異なる適応手法の性能を比較したものになっています。

今回の比較対象はこの５種類。今回提案されたモデルは一番下のwhisper-PPというものですね。

さて結論から話すと、提案手法は他のモデルと比較して最もよい性能を示していました。普通のwhisperもその次に性能が良かったので、構音障害音声と相性が良いのかもしれません。

重度の構音障害者音声の認識（ＦＪ１）に対しても、やはり提案手法が強くＣＥＲを７％も改善しました。最新の音声認識モデルであるconformerですが、彼らの音声に苦戦を強いられる結果となりました。やはり最新だから彼らの音声に強いだろうということはないんですね...

実験に使用されたモデルは。Conformerは最新の音声認識モデル・ＴＤＮＮは時間遅延ニューラルネットワーク・あとのはwhisperのそのまま・別の話者適応の手法を試したもの・本研究のものになりますね。

評価指標についてはすべてＣＥＲ（文字誤り率）という、音声認識結果と元のテキストを比較してどれぐらい１文字あたりの間違いがあるのかという指標が用いられています。あくまでこれは誤り率なので、数字が低い方が性能が良いんです。

実験全体の結果として、提案手法はあらゆるタスクにおいて他のモデルを上回る性能を示しました。これは、この話者適応手法がいかに話者の特長を的確かつ効率的に抽出しモデルに統合できているかがわかる結果ですね！

障害者も健常者も関係なく、等しく便利さを享受できるように....

すこし過激な発言かもしれませんが、この世の中に平等なんぞものは存在しません。今は、多様性の時代だ・みな平等にみな等しくなんて声高らかにご高説たれる方もいすが、これは机上の空論でしかないのです。

なんてったってこの世の中には、一例として健常者・障害者という明確な差が生まれてしまう多様な人々が存在しているのですから。この世の中において真に必要なものは、平等ではなく配慮もしくは救いの手を差し伸べる優しい心ですかね。

とは言ってみましたが、せめて科学技術に起因する便利さだけはみな平等に享受できるようになってほしいですし、なっていく必要があると思います。

誰もが等しく便利さを享受できる社会の実現のために、研究者たちは日々探究しているわけですね。やっぱりカッコいいし憧れちゃいますね！

ってわけで、今回は構音障害者音声をちゃんと認識できるようにする話者適応手法について見ていきました。みなさん少しは掴めましたか？少しでも学んでいってくれると幸いです。

それでは！次の記事で会いましょう～～

ひよっこライター小笠原のちょっと雑談

企業さんや大学院生の方で、共同研究を行っていただける方を募集中です！

専門は、音声認識（実験系）で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、１人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか？

この記事に関するカテゴリー

アサさん: どうもこんにちは！アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。企業さんとの研究や共同研究していただける方大募集中です！