赶上最新的AI论文

端到端语音翻译 "NeurST"。

语音识别

3个要点
✔️一个用于神经语音翻译的开源工具箱现已推出
✔️一个简单易用、灵活的端到端语音翻译系统。
✔️设置基准测试、特征提取、数据预处理、分布式训练等。

NeurST: Neural Speech Translation Toolkit
written by Chengqi Zhao, Mingxuan Wang, Lei Li
(Submitted on 18 Dec 2020 (v1))
Comments: arXiv:2012.10018 [cs.CL]
Subjects: Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)
  

首先

神经语音翻译(NST)是深度学习的重要组成部分,NST的常见方法是使用单独的自动语音识别(ASR)和机器翻译(NMT)模型的顺序方法。这种方法容易产生误差传播,ASR结果的任何误差也会导致NMT结果的误差。然而,最近的端到端方法旨在将语音直接转换为翻译文本,这减少了含错误的传播。同时,还可以缩小模型的尺寸,使其适合部署。然而,尽管端到端模型的性能很好,但在不同研究中对模型进行基准测试时,似乎并不一致。这是由于语音数据预处理的复杂性,需要进行数据增强和预训练;NeurST工具箱可以解决这些问题。

NeurST提供了最先进的基于变压器的模型的实现,包括特征提取、数据预处理、训练和推理模块,使研究人员能够复制基准结果。它也在TensorFlow2中实现。

要阅读更多。

你需要在AI-SCHOLAR注册。

1分钟内免费轻松注册

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们