端到端语音翻译 "NeurST"。

语音识别 30/01/2021

3个要点
✔️一个用于神经语音翻译的开源工具箱现已推出
✔️一个简单易用、灵活的端到端语音翻译系统。
✔️设置基准测试、特征提取、数据预处理、分布式训练等。

NeurST: Neural Speech Translation Toolkit
written by Chengqi Zhao, Mingxuan Wang, Lei Li
(Submitted on 18 Dec 2020 (v1))
Comments: arXiv:2012.10018 [cs.CL]
Subjects: Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)

首先

神经语音翻译(NST)是深度学习的重要组成部分，NST的常见方法是使用单独的自动语音识别(ASR)和机器翻译(NMT)模型的顺序方法。这种方法容易产生误差传播，ASR结果的任何误差也会导致NMT结果的误差。然而，最近的端到端方法旨在将语音直接转换为翻译文本，这减少了含错误的传播。同时，还可以缩小模型的尺寸，使其适合部署。然而，尽管端到端模型的性能很好，但在不同研究中对模型进行基准测试时，似乎并不一致。这是由于语音数据预处理的复杂性，需要进行数据增强和预训练；NeurST工具箱可以解决这些问题。

NeurST提供了最先进的基于变压器的模型的实现，包括特征提取、数据预处理、训练和推理模块，使研究人员能够复制基准结果。它也在TensorFlow2中实现。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

或