【Metaが開発した人工知能!?】従来の自己教師あり学習モデルとは一線を画す"HuBERT"モデルの性能はいかに
3つの要点
✔️ マスクさせた領域のみを予測させる損失関数
✔️ クラスタアンサンブルの活用
✔️ 反復的な教師ラベルの洗練
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
written by Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
[Submitted on14 Jun 2021]
comments:To appear at IEEE ICASSP 2024
subjects:Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
みなさんはじめまして!
AI-SCHILARの新人ライターの小笠原です。
今回紹介する論文はこれ
「 HuBERT: 自己教師付き音声表現隠れユニットのマスク予測による学習」
です。
冒頭でも要点をまとめた通り、自己教師あり学習モデル固有の問題を解決するためにHuBERTモデルの有用性を示すことが目的のようですよ。
いったいどんな手法が用いられているんでしょうかね!私と一緒に少しずつ学んでいきましょう~~
できるだけ嚙み砕いて紹介していきますので最後までお付き合いください。
この研究の概要
従来の自己教師あり学習モデルモデルには主に3つの問題点がありました。
- 各入力発話にはいくつかの音声ユニットが含まれてしまう
- 事前学習フェーズではユニットの辞書がない
- 音声ユニットの長さが可変であり明示的な分割がない
これらの問題を解決すべくこの論文を通して提案されたモデルが、HuBERTです。これは、損失関数にあるアプローチを取ることによって、認識精度の向上を目指しています。
このモデルのテスト結果としては、最大19%もの大幅な認識精度改善を成し遂げました。
提案手法
上の図(a)が本論文で提案されている手法です。
これだけ見て理解するのは難しいと思うので、1つずつ紐解いていきましょう。
この記事の目標は、読後にこのモデルをみて理解できるようになることです。
先ほども話した通りかみ砕いて説明してくので、最後までついてきてくださいね!
CNN(畳み込みニューラルネットワーク)
これは知ってるよ~って読者が多いかもしれませんね。有名でよく画像分野で使われてますよね。この仕組みを簡単に説明すると、ニューラルネットワークの構造に畳み込み層と呼ばれる機構が組み込まれたものです。
畳み込み層のメリットとしては、入力元の情報を保持しつつも高度な特徴の抽出が可能であるというところにあります。本論文の手法では、特徴量抽出器として組み込まれているということですね。
Transformer
簡単に説明すると、Attentionという機構をもつCNNともRNNとも異なるモデルのこと。Attentionモデルは、文中の単語の意味が分からないときにどの単語にスポットを当てればよいのかを示すスコアあるいは同様の働きをする機構のこと。
長い機械学習研究の歴史の中で、とても新しくかつとても画期的そして機械学習界の革命ともとれるほど優れたモデルです。この機構が組み込まれた進化系としては、BERTやその系列モデルその他たくさんの優れたモデルが存在します。
マスキングについて
図(a)をもう一度見てください。CNNとtransformerの間に、MSKと書かれた箇所がありますよね。これがマスキングされた箇所です。じっくり説明すると難しくなってしまうので、ざっくりと説明すると、エンコーダーから出力されたデータをすべて渡してしまうよりも、出力データから無作為に選びマスキングしてから渡した方が、学習結果が良くなる場合があるんですよね。
この手法は、音声だけではなく画像や自然言語のほうでも良く用いられています。
事前知識の習得をおえて
はい。ここまで予備知識を解説していきましたが、みなさんついてこれましたか?
論文ってとても難しそうに見えますし、実際文章だけで理解しようとするのはとても高度は知識が必要になると思います。
しかし研究者たちも自分の考えや成果を良く知ってもらおうと色々と工夫されているんですね。その1つが、論文中にある図ですね。それでは、図(a)を解読していきましょうか。この図の見方は下から上へです。
- 音声が入力される
- 入力された音声波形はCNNに渡され、特徴量表現に変換される
- 変換された特徴量表現は、transformerに
- transformerでは、k_meansによって得られた音響ユニットがマスキングされ入力さっれる
- transformerはこのマスクされた部分を予測することを目的とし学習される
これがHuBERTモデルの流れになります。理解できました?最初はうっなんだこれは!と思った方もいたと思いますが、流れさえつかんでしまえばアーキテクチャーは意外とシンプルなんですよ。
今回の記事では、ざっくりと押さえてもらうことを目的としているので、細かい機構の説明や数式は省略しました。流れはシンプルですが、このモデルとても凝ってますよ。この論文には数学的なモデルの説明なども書かれていますので、我こそはという方は原本を読んでみることをお勧めします。
理解できてる?ここまでの振り返り
大事なことはたった3つだけ!
これだけ押さえておこう!
- HuBERTとは隠れ層のあるBERTモデル
- 特徴量抽出器とtransformerのみのシンプルなアーキテクチャー
- 数学的なアプローチを理解しようとすると深い
この3つさえ、頭にあればあとは大丈夫!
次からは、実験についてみていくからね~
ここからが本番!実験について
ここまでの、長い基礎説明を読んでくれたみなさん本当にありがとうございます。次はいよいよ論文で一番面白いところである、実験について解説していきますよ。
実験設定
さて実験設定について話していきましょう。本実験では、モデルの事前学習としてLibrisspeechを960時間、そしてLibri-lightを60000時間使用しています。ファインチューニングにはLibri-lightを(10分、1時間、10時間)またはLibrispeech(100時間、960時間)を再度用いています。最後に教師ラベルとしてk-meansクラスタリングを使っています。
モデル構築として、HuBERT BASE,LARGE,X-LARGEの3モデル設計されている。基本的には、wav2vec2.0のアーキテクチャに基づいており、パラメータ数はそれぞれ、95M,317M,964Mとなっています。
実験結果はいかに!
低リソース(Libri-light:10分~100時間)の評価
低リソースでの実験結果としては、HuBERT LARGE XLARGE がwav2vec 2.0を上回る性能を発揮しています。また10分というとても短いデータでも改善がみられています。
高リソース(Librispeech:960時間)の評価
HuBERT LARGEにおいては、wav2vec2.0と同等の結果となってしまいました。しかし、XLARGEにおいては最大13%ほどのWER改善が見られるという結果になりました。
教師ラベルの品質分析
k-meansクラスタリングは安定しており、データ量を増やすと若干性能の向上が見られます。またHuBERTモデルを用いたクラスタリングはMFCCよりも圧倒的に良い品質の教師ラベルを生成しました。
論文の総括
みなさんお疲れ様です。今回紹介したのは、自己教師あり学習モデルの問題点を解決するHuBERTモデルというものでした。私としてはとても以外で面白い結果でした。低リソースにおいてはLARGEにおいてもwav2vec2.0に優位性を見せてましたが、データが大きくなると両者同等になってしまいましたからね。
やはり研究はやってみなきゃわからない。仮説などひっくり返してしまえ~~というような感覚を味わえるとても良い論文でした。
本研究の成果をまとめてみると
- 主に特徴量抽出において従来のMFCCよりも良い品質の教師ラベルを生成できること
- wav2vec2.0よりもWER改善が見られたこと
という2つの大きな成果があげられます。
ひよっこライター小笠原のちょっと雑談
学会参加するんじゃ~~
大学院修士課程における重要イベント”学会発表”!楽しみでもありちょっと不安でもある、いややっぱり楽しみだわ。
自分の研究成果を真剣に聞いてもらえて、専門家にレスポンスがもらえるなんてとても貴重な機会なのでしっかりものにしなきゃ。
それでは次の記事でお会いしましょう。
新米ひよっこライターの小笠原でした~
じゃねばーい!
この記事に関するカテゴリー