最新AI論文をキャッチアップ

end-to-endの音声翻訳

end-to-endの音声翻訳"NeurST"

音声認識

 3つの要点
✔️ニューラル音声翻訳のためのオープンソースのツールキットが登場
✔️使いやすく柔軟なend-to-end音声翻訳システム
✔️ベンチマーク、特徴抽出、データ前処理、分散トレーニングなどのセットアップ

NeurST: Neural Speech Translation Toolkit
written by Chengqi Zhao, Mingxuan Wang, Lei Li
(Submitted on 18 Dec 2020 (v1))
Comments: arXiv:2012.10018 [cs.CL]
Subjects: Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)
  

はじめに

ニューラル音声翻訳(Neural Speech Translation:NST)は、深層学習の重要な要素である。NSTの一般的なアプローチは、自動音声認識(ASR)モデルと機械翻訳(NMT)モデルを別々に使用する連続的なアプローチです。このアプローチは誤りが伝搬しやすく、ASRの結果に誤りがあれば、NMTの結果にも誤りが生じることになります。ただ、最近のend-to-endアプローチは、音声を直接翻訳テキストに変換することを目的としているため、誤りを含んだ伝播を軽減することができます。また、モデルサイズを小さくすることができるため、導入に適しています。しかし、end-to-endモデルの優れた性能にもかかわらず、さまざまな研究でモデルをベンチマークする際に矛盾があるように思われます。これは、音声データの前処理が複雑で、データの増強や事前学習が必要になることが原因です。NeurSTツールキットはこれらの問題を解決することができます。

NeurSTは、最先端のtransformerベースのモデルの実装を提供し、特徴抽出、データ前処理、トレーニング、推論モジュールを含み、研究者がベンチマーク結果を再現できるようにしています。また、TensorFlow2で実装されています。

続きを読むには

(3067文字画像7枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または
Thapa Samrat avatar
今大阪大学の電子情報工学科で学習している2年生のネパールからの留学生です。 機械学習・深層学習に興味あります。だから、暇なときにそれらについて記事を書いています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする