【Google × Meta】XLS-R大規模モデルで音声認識と音声翻訳をこなす
3つの要点
✔️ 大規模クロス言語音声表現モデルXLSーR
✔️ 音声翻訳と音声認識で大幅な性能向上
✔️ 大容量クロス言語モデルの単一言語モデルへの匹敵
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
written by Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli
[Submitted on 17 Nov 2021 (v1), last revised 16 Dec 2021 (this version, v3)]
comments:To appear at IEEE ICASSP 2021
subjects:Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
みなさんはじめまして!
AI-SCHILARの新人ライターの小笠原です。
今回紹介する論文はこれ
「XLS-R: SELF-SUPERVISED CROSS-LINGUAL SPEECH REPRESENTATION LEARNING AT SCALE」
です。
冒頭でも要点をまとめた通り、wav2vec2モデルを大幅改良し音声認識精度を向上させることが目的のようですよ。
いったいどんな手法が用いられているんでしょうかね!私と一緒に少しずつ学んでいきましょう~~
できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。
この研究の概要
この論文では、wav2vec2.0に基づく、多言語音声表現学習のための大規模XLS-Rを提案しています。これは最大2億ものパラメータ数と、128言語で合計約46万時間の公開音声データで学習するという非常に大規模なものです。
この論文には、世界的大手企業であるMetaとGoogleが関わっているからこそ実現できる非常に大きなプロジェクトですね。
評価の特長としては、音声認識だけではなく幅広いタスクと言語で性能を評価していることであり、結果としては音声翻訳では過去最高精度、音声認識でも大幅な誤り率の改善が確認できました。
この論文は、モデルのアルゴリズムや設計手法が述べられたものではないので、どんな過程においてこのような結果が得られたのかじっくりと確認していきましょう!
おさえておこう
wav2vec2.0
このモデルはfacebook(Meta)によって開発されたモデルです。このモデルは、音声信号から文字おこしにつなげるという、End-to-End方式であることが特徴です。またこのモデルのすごい点として、自己教師あり学習であるということがあげられます。これは、第1段階での学習において、ラベルのない大量の音声のみを用いて学習することが可能なのです。
そして私たち利用者が使うときに使いたいタスクに合わせて、少量のデータでファインチューニングすることによって良い結果を得られます。
ファインチューニング
これは知っている読者さんが多いと思いますが一応、重要なことなので説明を加えておきます。これは簡単に説明すると、出来上がっているモデルを自分が行いたいタスクに合わせてカスタムすることです。
例えば、カードゲームの構築済みデッキを購入したとします。このデッキを使って友達と何度も対戦しているのですかどうしても勝つことができません。そこで、友達のデッキに勝つために、強力な対策カードを購入しデッキに組み込むみたいなかんじです。
要するに、自分が使いやすくするためにいじっちゃおって感じの処理なんだいう認識で構いません。
事前学習
wav2vec2.0でも説明しましたが、この手のモデルは2段階の学習を必要とします。事前学習ですから、第1段階の学習の事ですね。今回のモデルでは、ラベルのない大規模音声データを用いた自己教師あり学習が該当します。
音声コーパス・データセット
会社あるいは有志が、音素などのバランスを考えて作られた文章を読み上げることによって音声データセットは作られます。特に英語データセットは、種類も豊富ですし録音時間もとても膨大です。このデータセットの有無が音声認識技術の向上の鍵と言え、googleやmetaなどの世界的大手が在籍するアメリカがいかに強いのかがうかがえますね。
日本にも、あるにはありますが作成年度が古かったり、有料なものが多かったりとあまり豊富であるとは言えません。しかし近年では、ITAコーパスという無料かつオープンソースであるものが登場し、研究やクリエイターに多く使われていますね。有名どころだと、ずんだもんとかはこれに該当します。
理解できてる?ここまでの振り返り
大事なことはたった3つだけ!
これだけ押さえておこう!
- wav2vec2.0がベースであること
- パラメータ数も学習データもとにかく膨大であること
- 精度が大幅に向上したモデルであること
この3つさえ、頭にあればあとは大丈夫!
次からは、実験についてみていくからね~
ここからが本番!実験について
ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。
実験設定
- 事前学習としてwav2vec2.0を設定。パラメータ数を調整し最適化
- 超強力なGPUを用いて学習
- 多言語コーパスを使用しモデルのバランスを調整する
ここまでが実験準備です、あとはタスクごとにファインチューニングを行い実験結果を評価します。
実験結果はいかに!
音声翻訳
ある言語から英語への音声翻訳タスクでは、すべてのリソース量において大幅な改善を達成した。またモデルサイズを大きくすると、ほとんどの場合ベンチマーク性能が向上した。
また英語からある言語での翻訳においても、大きなモデルは英語のみの事前学習モデルと同様の性能を発揮することが可能です。これは十分な容量があれば、多言語モデルは単一言語の事前学習モデルと同一の性能になることを示しています。
音声認識
このタスクは、翻訳タスクとは異なり、学習データ量が少量および中量の場合に大きな制度改善が見られました。
論文の総括
みなさんお疲れ様です。今回紹介したのは、wav2vec2.0を大幅改造して幅広いタスクと言語で性能を評価しようというものでした。正直、普通の大学院生には程遠い世界の研究だと思いました。こんなに多くの音声データを集めるのは困難ですし、大規模なデータでの学習を可能にする超高性能なGPUも持ち合わせていないですからね。
学習データ約46万時間って何なんですかね?多分、日本に存在する音声データセットを集めても届きませんね。しかし、いいこと1つ発見できましたよ!それは、こんなに大規模にしても音声認識率の伸びには限度があるということですね。
質も量もどっちも大事ってことですかね。
本研究の成果をまとめてみると
- まず大規模すぎて再現不可能(*モデルは利用可能です)
- 翻訳タスク、音声認識タクスともに精度が向上した
という2つの大きな成果があげられます。
ひよっこライター小笠原のちょっと雑談
AIはなんでも超人でも、ドラえもんでもないよって話。
これを最後まで読んでくださった読者の方ならもう重々承知の事実であることでしょう。しかし一般の人はAIに関して知らなすぎる。
ネット見ててもどーせAIはなんでもできるんでしょ。じゃあ俺の仕事ないじゃん。って平然と書いてる人がいてちょっと唖然としてしまう。敵を知れ。知れば知るほど怖くなくなるし不安もなくなるから。ほら、あなたいまスマホなりマウスなりを握っているはずでしょ?googleでAIの記事を読めば済む話なんよ。
無関心・思考停止って怖いねって話でした。
それでは次の記事でお会いしましょう。
新米ひよっこライターの小笠原でした~
じゃねばーい!
この記事に関するカテゴリー