最新AI論文をキャッチアップ

【常識を覆す音声処理モデル!?】Microsoft社が開発する音声処理モデル”SpeechT5”の驚くべき性能とは

【常識を覆す音声処理モデル!?】Microsoft社が開発する音声処理モデル”SpeechT5”の驚くべき性能とは

Sound

3つの要点
✔️ SpeechT5は音声と文章の両方を扱えるエンコーダー-デコーダーモデルである
✔️ 大規模な音声データと文章データを用いて事前学習を行い、様々な音声言語処理タスクに応用可能

✔️ 音声情報とテキスト情報を個別に扱うのではなく、クロスモーダル的に使用している

SpeechT5: Unified-Modal Encoder-Decoder Pre-Training for Spoken Language Processing
written by Junyi AoRui WangLong ZhouChengyi WangShuo RenYu WuShujie LiuTom KoQing LiYu ZhangZhihua WeiYao QianJinyu LiFuru Wei
[Submitted on 14 Oct 2021 (v1), last revised 24 May 2022 (this version, v3)]
Comments:   Accepted by ACL 2022 main conference
Subjects:   Audio and Speech Processing (eess.AS); Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

常識を覆す!?マルチで活躍可能なspeechT5

ココだけでもよんで!論文超要約!?

みなさんは自分の声にコンプレックスを抱いたことはありますか?私はありますよ。先天性の障害により発音が上手く出せずなおかつ、こもった声なので、あ~あの声優さんみたいに渋くて通るだったらカッコいいのにな~なんて思うことは日常茶飯事ですし、誰だって生きていればそのような経験を抱くことはあるのではないでしょうか? 

近年のアニメブームにより、声優さんにもフォーカスが当たるようになり、誰もが羨む超カワイイボイスを持っていらっしゃる方でも、周りと違う声がコンプレックスだなんて話もよく聞きますしね。

さてさて、声というのはものすごく身近なものなので、もっとカッコよく/可愛くしゃべりたいというのは人間の永遠の課題だと思います。

そんな永遠の課題に対して真摯に立ち向かっている、音声合成および声質変換分野の研究論文の紹介です。

Microsoft社が開発・提供するSpeechT5モデルは音声と文章を同時に扱うことが可能なモデルであり、音声認識や音声合成など音声に関わる処理タスクを1つのモデルで処理できるように設計されています。

従来の音声処理モデルは、音声のみを使用し学習されることが多く、テキストデータの重要性が見過ごされがちでした。またモデル開発の際にエンコーダーに焦点が当たることが多く、デコーダーの事前学習が不足していました。

そこで、SpeechT5では音声とテキストの両方のデータを効果的に活用し、あらゆる音声処理タスクを高水準で行うことができるモデルの開発を目指しました。

研究の結果として、このモデルは様々な音声処理タスクにおいて既存のモデルを大きく上回る結果を示しました。特に音声認識では比較的高性能と言える、wav2vec2やHuBERTをも凌ぐ素晴らしいものでした。

従来の考え方というのは、何でもできるマンを作ろうというものではなく、あるタスクにおけるスペシャリストを作るというものでした。まぁ何でもデキルマンって、なんか中途半端な仕事しちゃいそうな感じしますもんね。

ですがSpeechT5は何でもデキルマンなモデルではありますが、器用貧乏にはならずどの仕事も高水準でこなすので、マルチに活躍できるモデルの可能性を再度示すことができました。

音声合成タスクでこのモデルを実際に試してみましたが、本当に流暢に英語をしゃべりますよ!現在、英語のみの対応というのが本当に悔やまれるモデルではあるのですが、英語の処理なら任せておけって感じの頼れる骨太モデルだと感じました。

さて、次の章ではこのモデルのアーキテクチャーについてもう少し踏み込んだお話をしていこうと思います。

SpeechT5のアーキテクチャーをみていこう...

さてここからは、SpeechT5のアーキテクチャーについて見ていきましょう。やっぱりモデルを学ぶ上でアーキテクチャーは避けては通れませんからね~

ゆっくり見ていきますから、じっくりと理解しながらついてきてください!

  1. inputとして音声情報とその対となるテキスト情報をエンコーダーへと渡します
  2. エンコーダーへ渡された情報は、デコーダーへど渡されていきます
  3. デコーダーには、エンコーダーからの情報だけではなく、音声信号とその対となるテキストも渡されます
  4. 4つの情報を処理したデコーダーは、音声信号の処理機構とテキスト情報の処理機構のそれぞれに処理した情報を受け渡します

これが一連の流れとなります。そんな難しくありませんでしたよね?ここで1つ注意、音声情報と音声信号情報は全くの別物です。

分かりやすく言うと、音声情報は人間が理解しやすいもの(人の発話とか)であり、音声信号情報は、機械が理解しやすいもの(数値とか)です。

厳密にいえば、テキスト情報もモデル内部でモデルが処理しやすい形に変換されるんですけど、それはまた別の話。

今回のアーキテクチャーの説明ものすごく簡略化しました。本当は数学的な設定事項や説明項目もあるんですけど、3000字付近に収まりきらないので割愛します。

一通りアーキテクチャーにも触れたので、結果についてもうすこし踏み込んでみますか!

冒頭でも話しましたが、このモデルはマルチで活躍できるモデルです。そのため結果をまとめた項目もたくさんありますが、ここでは一番分かりやすい音声認識結果を見ていきましょう。

とりあえず分かりやすいWER。今回注目すべきは一番下の列のSpeechT5。先にWERを説明すると、単語誤り率のこと。音声認識結果と元テキストを照らし合わせ、どのぐらい単語単位で間違ったかを計測しモデルの性能を示す指標の一つです。

誤り率ですから、出る数値は低ければ低いほど良いです。さて結果はどうなっているでしょうか?

 結果は一目瞭然ですね。他のモデルよりも数値が低くなっているすなわち、とても音声認識性能が高いモデルであることが分かりますね。

私は普段、構音障害者音声における音声認識モデルの性能を測定し比較する研究をメインに行っていて、Wav2vec2もHuBERTもめちゃくちゃ優秀なモデルであるんですけど、それを超えてくるとなるとWhisperぐらいじゃないですか?まともにやりあえるのは

まぁこちらはマルチに活躍出来て、whisperは多くの言語に対応したマルチ言語モデルですから単純に優劣付けることは出来ませんけどね

研究者の端くれとしては、どちらが構音障害者音声に強いモデルなのかを検証してみたいですね。

今回の記事はここまで~

このモデルはHuggingfaceなどでcolabへのリンクが公開されていて比較的誰でも試しやすいモデルだと思いますので、興味のある方はぜひご自分の手でこいつの性能を体感してみてください。

なんだかんだ、自分の手で何かやるのが一番身になりますからね、

ひよっこライター小笠原のちょっと雑談

 企業さんや大学院生の方で、共同研究を行っていただける方を募集中です!

専門は、音声認識(実験系)で特に構音障害者を対象に扱っています。

この分野は、使えるリソースが限られていますので、1人で取り組むのでは必ず限界が来ます。

どなたか一緒に最新技術を用いて社会課題の解決を目指してみませんか?

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
アサさん avatar
どうもこんにちは! アサさんです。大学院生をしていて、専門は構音障害者の音声認識です。研究が楽しいので博士課程に進学予定です。 趣味は、オーディオ・読書・英語・アニメ・ゲーム・映画・お散歩・旅行と多趣味です。最近はガールズバンドクライというアニメにハマっていて、楽曲を鬼リピしています。 企業さんとの研究や共同研究していただける方大募集中です!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする