end-to-endの音声翻訳"NeurST"

音声認識 2021年01月30日

3つの要点
✔️ニューラル音声翻訳のためのオープンソースのツールキットが登場
✔️使いやすく柔軟なend-to-end音声翻訳システム
✔️ベンチマーク、特徴抽出、データ前処理、分散トレーニングなどのセットアップ

NeurST: Neural Speech Translation Toolkit
written by Chengqi Zhao, Mingxuan Wang, Lei Li
(Submitted on 18 Dec 2020 (v1))
Comments: arXiv:2012.10018 [cs.CL]
Subjects: Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)

はじめに

ニューラル音声翻訳(Neural Speech Translation：NST)は、深層学習の重要な要素である。NSTの一般的なアプローチは、自動音声認識（ASR）モデルと機械翻訳（NMT）モデルを別々に使用する連続的なアプローチです。このアプローチは誤りが伝搬しやすく、ASRの結果に誤りがあれば、NMTの結果にも誤りが生じることになります。ただ、最近のend-to-endアプローチは、音声を直接翻訳テキストに変換することを目的としているため、誤りを含んだ伝播を軽減することができます。また、モデルサイズを小さくすることができるため、導入に適しています。しかし、end-to-endモデルの優れた性能にもかかわらず、さまざまな研究でモデルをベンチマークする際に矛盾があるように思われます。これは、音声データの前処理が複雑で、データの増強や事前学習が必要になることが原因です。NeurSTツールキットはこれらの問題を解決することができます。

NeurSTは、最先端のtransformerベースのモデルの実装を提供し、特徴抽出、データ前処理、トレーニング、推論モジュールを含み、研究者がベンチマーク結果を再現できるようにしています。また、TensorFlow2で実装されています。

続きを読むには

(3067文字画像7枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または