端到端语音翻译 "NeurST"。
3个要点
✔️一个用于神经语音翻译的开源工具箱现已推出
✔️一个简单易用、灵活的端到端语音翻译系统。
✔️设置基准测试、特征提取、数据预处理、分布式训练等。
NeurST: Neural Speech Translation Toolkit
written by Chengqi Zhao, Mingxuan Wang, Lei Li
(Submitted on 18 Dec 2020 (v1))
Comments: arXiv:2012.10018 [cs.CL]
Subjects: Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)![]()
![]()
首先
神经语音翻译(NST)是深度学习的重要组成部分,NST的常见方法是使用单独的自动语音识别(ASR)和机器翻译(NMT)模型的顺序方法。这种方法容易产生误差传播,ASR结果的任何误差也会导致NMT结果的误差。然而,最近的端到端方法旨在将语音直接转换为翻译文本,这减少了含错误的传播。同时,还可以缩小模型的尺寸,使其适合部署。然而,尽管端到端模型的性能很好,但在不同研究中对模型进行基准测试时,似乎并不一致。这是由于语音数据预处理的复杂性,需要进行数据增强和预训练;NeurST工具箱可以解决这些问题。
NeurST提供了最先进的基于变压器的模型的实现,包括特征提取、数据预处理、训练和推理模块,使研究人员能够复制基准结果。它也在TensorFlow2中实现。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别