赶上最新的AI论文

这就是SoTA关于语音识别的论文! 谷歌的这项研究真是突破了半监督学习的极限!

语音识别

三个要点
✔️谷歌发表了一篇关于语音识别的SoTA论文
✔️基于转化器的语音识别模型 Conformer
✔️结合了自我培训和半监督学习的最佳实践

Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition
written by Yu ZhangJames QinDaniel S. ParkWei HanChung-Cheng ChiuRuoming PangQuoc V. LeYonghui Wu
(Submitted on 20 Oct 2020)
Comments: Accepted by NeurIPS SAS 2020 Workshop

Subjects: Audio and Speech Processing (eess.AS); Machine Learning (cs.LG); Sound (cs.SD)

code:    

首先

近年来,半监督学习已被用于显著提高语音识别的性能。半监督学习的目的是通过使用这样大量的无标签数据来提高有标签数据的监督学习的性能。半监督学习的目的是通过使用这种大型的无标签数据来提高有标签数据的监督学习的性能。在本文中,我们在LibriSpeech数据集上实现了SoTA,如上图所示,通过结合最近开发的预训练和自我训练。半监督学习的无标签数据来自免费的LibriVox数据集。

让我们回顾一下迭代式自我训练,也就是通过标注学习一个模型,然后用这个模型给未标注的数据分配标签。自我训练就是通过标注学习一个模型,然后用这个模型来标注未标注的数据。需要注意的是,分配标签的模型被称为教师模型,而学习伪标签的模型被称为学生模型。

另一方面,在预训练中,模型通过预训练任务在未标记的数据上进行训练,然后在监督数据上进行微调。例如,在图像识别预训练中,在ImageNet的图像分类任务中训练的模型被用作其他任务的初始参数。同样是在自然语言处理领域,例如,BERT首先解决了在一个句子中掩盖一些单词的任务,并从周围的环境中预测被掩盖的单词。.

在本文中,我们提出了一种结合迭代自我训练和预训练的方法。换句话说,我们预先训练一些模型,并把它们作为迭代自我训练的初始模型。在这里,无标签数据集扮演着两个角色:一个是预训练数据集,另一个是无标签数据集,为训练学生模型生成伪标签。这个想法本身已经在图像识别领域得到了广泛的处理,但我们将其应用于语音识别。

建议的方法

模型结构:顺应者

该模型架构是基于一个名为Conformer的基于Transformer的语音识别模型。如果你对这个Conformer感兴趣,在这篇文章中会有详细的解释。

语音识别网络本身是由LSTM解码器和Conformer编码器组成的一系列转换,每个编码器都是由多头的自我注意、深度卷积、前馈层组成的 "Conformer块 "的堆栈。主要元素是一叠"Conformer Blocks",每个都由多头的自我注意、深度卷积和前馈层组成。这个保形器编码器在上图中得到了说明。

wav2vec 2.0进行预训练

在本文中,我们以与wav2vec 2.0相同的方式对Conformer编码器进行预训练,后者对unlab-60Libri-Light的一个子集)中的语音进行预训练。wav2vec 2.0在本文中有详细描述(https://ai-scholar.tech/articles/voice-recognition/wav2vec),所以请看一下。

符合者编码器可分为三部分:由卷积子采样块组成的"特征编码器",由线性层组成的 "上下文网络",以及符合者块的堆栈。符合者编码器可以分为三个部分:由卷积子采样块组成的 "特征编码器",由线性层组成的"上下文网络",以及符合者块的堆栈。从这些卷积子采样块中编码出来的特征在一侧被屏蔽成上下文向量,然后被送入网络的其他部分,而在另一侧则通过线性层来生成目标上下文向量。换句话说,Wav2vec 2.0预训练优化了被掩盖的语境向量目标语境向量之间的对比损失。这一机制在上图中得到了说明。

用SpecAugment进行嘈杂的学生培训

在本文中,我们采用嘈杂的学生训练管道来训练用wav2vec 2.0预训练的模型。在NST中,教师模型是通过整个ASR模型与语言模型shallo-fusing在一起得到的,而未标记数据的成绩单是通过对尚未经过增强的语音进行推理产生的。无标签数据的成绩单是通过对尚未经过增强的语音进行推理而产生的。标记的数据在过滤和平衡后,生成下一个ASR模型。学生模型的输入数据是通过自适应的SpecAugmentation增强的。实验表明,使用教师模型产生的数据比过滤和平衡更有效,可以实现SoTA的性能。

总结一下,我们假设标记的LibriSpeech数据集为S, 未标记的Libri-Light数据集为U,LibriSpeech语言模型语料库上训练的语言模型为LM,那么训练一组模型的程序如下详见下文。

实验结果

LibriSpeech进行实验得到的WERs(%)的结果如上图所示。该图比较了在无标签数据上训练的模型(基线)、没有预训练的模型NST)、在监督数据上预训练和微调的模型(仅预训练)、以及用本文提出的半监督学习(SSL)管道训练的模型。本文提出的学习(SSL)管道。结果表明,使用本文提出的第三代构象体XXL模型,用SSL管道训练的模型取得了最佳性能。

最后

在本文中,我们结合最先进的架构知识和增强功能,特别是半监督学习,来实现语音识别任务中的SoTA

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们