Conformer：Transformerを音声認識に応用！？ GoogleによるTransformer×CNNが凄すぎる！！

音声認識 2020年11月19日

3つの要点
✔️ TransformerとCNNを組み合わせたモデル，Conformerを音声認識に応用
✔️ 畳み込みモジュールがConformerにおいて最も重要であることがわかった
✔️ 既存の音声認識研究の中でも最高の精度を確認

Conformer: Convolution-augmented Transformer for Speech Recognition
written by Anmol Gulati, James Qin, Chung-Cheng Chiu, Niki Parmar, Yu Zhang, Jiahui Yu, Wei Han, Shibo Wang, Zhengdong Zhang, Yonghui Wu, Ruoming Pang
(Submitted on 16 May 2020)
Comments: Accepted at Interspeech2020
Subjects: Audio and Speech Processing (eess.AS); Machine Learning (cs.LG); Sound (cs.SD)

要約

これはGoogleが出した論文で、機械学習業界、特に自然言語処理においてホットになりつつあるTransformerを音声認識に応用したものです。音声認識界隈では、今まではRNNsベースモデルが最も優れていましたが、最近ではTransformerとCNNによるモデルの方が優れた結果を出し始めています。本論文ではこのTransformerとCNNを組み合わせたものをConformerと名づけています。そして、当然のことながら、このConformerは先行研究を大幅に上回る成果を出しています。

はじめに

昨今では、ニューラルネットワークベースの音声認識システムの精度が飛躍敵に向上しています。音声の時間的依存性を効率的に考慮できるRNNsはその先鋒であり、さらに最近ではSelf-Attentionに基づいたTransformerが頭角を表しています。これは、Transformerがより長い時間の依存性を捉えることができ、しかも効率的に訓練できるからです。また、他にもCNNが、層ごとに局所的受容野を通じて局所的なコンテキストを捉えることで、ある程度の成功を収めています。

しかし、Self-AttentionやCNNは、それぞれ単体では限界がありました。Transformerはグローバルなコンテキスト、すなわち長い時間的依存関係を考慮するのは得意である一方、ローカルなコンテキスト、すなわち局所的な関係を抽出するのは不得意でした。CNNはその逆で、コンピュータビジョン領域などでも見られるように、ブロックに細分化してローカルな情報を抽出することが得意である一方で、より大きな視野での繋がりを捉えるには、多くの層やパラメータを必要としてしまいます。

そこで、最近の研究では、CNNとSelf-Attentionを組み合わせることで、個々のパフォーマンスを上回る動きが活発になっています。同時に使うことで、両者のいいとこ取りして、ローカルなコンテキストも、グローバルなコンテキストも捉えようという訳です。

本研究は、CNNとTransformerを組み合わせて音声認識に応用するというものです。ローカルな情報とグローバルな情報を捉えることが、より高い精度のパラメータ決定に繋がるという仮定に基づいています。そして、Self-AttentionとConvolutionによる新しい組み合わせを発案しました。

Conformerと名付けたこのモデルは、LibriSpeechデータセットの結果において最も高精度なパフォーマンスを出し、先行研究の中で最も優れていたTransformer Transducerを15%上回りました。また、パラメータのサイズをそれぞれ1000万、3000万、1億1800万個のパターンで実験し、中間的な3000万個のモデルでも、すでにTransformer Transducerを上回りました。

続きを読むには

(6136文字画像18枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または