BERT用于语音识别
3个要点
✔️ 一个简单的方法,叫微调BERT,用于语音识别。
✔️ 利用BERT等强大的语言模型的潜力。
✔️ 在普通话(汉语关语)语音识别数据集上进行验证和基准测
Speech Recognition by Simply Fine-tuning BERT
written by Wen-Chin Huang, Chia-Hua Wu, Shang-Bao Luo, Kuan-Yu Chen, Hsin-Min Wang, Tomoki Toda
(Submitted on 30 Jan 2021)
Comments: Accepted to ICASSP 2021.
Subjects: Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)
首先
传统的语音识别系统由语言模型(LM)、声学模型和字典组成。最近,一个统一的模型由端到端自动语音识别(ASR)系统,由一个统一的模型组成。这些模型需要在大量的标签数据上进行训练。最近,基于自学习的语言模型(BERT、GPT)也得到了快速发展,这些语言模型(LM)和BERT一样,都是在大量的无标签文本数据体上进行训练,这些数据体比较容易从互联网上获得。
LM在传统语音识别中发挥了重要作用.E。端到端ASR,添加LM已被证明可以提高性能。另外,对于我们人类来说,词汇量的提高意味着我们可以认识更多的单词。因此,很直观地想知道需要多少知识才能使一个ASR系统表现得像一个系统。在本文中,我们试图基于这一直觉对语音识别的BERT模型进行微调。
BERT到底是什么?
BERT是一个多层变压器编码器层训练时,训练语料库中的唯一词及其n-grams(卦))是由训练语料创建的。它还包含一些特殊的条目,如句子分离的[SEP]和分类任务的[CLS]。然后,词典中的每一个条目都会被连续标记化,在训练过程中,会抽取包含一些屏蔽词(约15%)的句子,并对BERT进行优化,以预测这些词 BERT被训练成预测词典中所有词的概率分布。
BERT已经针对情感分析、问题回答、文本摘要、神经机器翻译等多种任务进行了微调,在微调过程中,对模型的几个结构组件进行了调整,并使用了特定的任务数据。
BERT,用于语音识别
LibriSpeech D = {Xi,Yi}i=1~N 假设我们有一个ASR数据集,如这里我们有Xi={xi1,xi2,...xik}是声学特征,而Yi={yi1,yi2,...yil}是相应的文字。声学特征的维度为d,词汇量为V。
随机语言模型的微调:《中国语言模型》。BERT-LM
微调概率LM非常容易。该模型总是被设计成预测句子中的下一个词。第一个词y1是由字t=1的形式开始获得,唯一的输入序列是令牌[CLS]。然后,我们通过模型迭代运行预测序列以获得序列中的下一个词,从而建立预测词。以下公式概括了这一概念。
语音自动识别模型的微调: 语音自动识别模型的微调: 语音自动识别模型的微调BERT-ASR
BERT-ASR模型可以和BERT-LM一样,用于以下方面和BERT-LM一样的微调方式。如第二张图所示,这个模型被训练成预测序列中的下一个词,类似于语言模型。然而,如上图所示,它与BERT中使用的其他三种嵌入和声学嵌入相结合。这些声学嵌入是由声学编码器生成的,如下所述。
对齐文字和声音特征
在这里,声学特征X的帧已经与各自的词联系在一起,即有一个假设,X的连续帧的范围被分配给Y的某个词。在实际工作中,可以使用HMM/DNN来完成。还有在ASR的情况下,方程(1)的变换如下所示
哪儿Ft是指y是词y对应的声学特征。
声学模型
我们介绍了两种类型的声学模型,用于将声学特征转化为声学嵌入。
- 平均编码器
这是一种相当简单的沿时间轴对分段声学模型进行平均的方法。 然后将平均数据传递给线性层,以提炼信息,并将维度扩展到其他嵌入(令牌嵌入、位置嵌入、分段嵌入)的维度。 - Conv1d-Resnet
平均编码器省略了声学特征帧之间的时间依赖性。为了在嵌入中正确地表示这些依赖性,特征会通过一系列的残差块,而不是简单的平均。
实验
BERT-ASR和BERT-LM在AISHELL-1数据集上进行了验证,这是一个用于普通话语音识别的语料库。在中文维基百科上训练的一个预训练的BERT模型被用于任务。声学特征与文本的对齐也是使用同样在AISHELL-1训练集上训练的HMM/DNN模型完成的。我们使用了谕令解码(Orac.)和实用解码(Prac.),前者假设对齐方式是可访问的,后者假设对齐方式是线性的(每字25帧),两种情况下波束大小都设置为10。结果如下所示。
CER:字符错误率和PPL:AISHELL-1数据集的迷惑性结果。
CNN的电阻网编码器明显优于一般的编码器,而甲骨文解码取得的效果要好于线性对齐。详见论文原文。
摘要
在本文中,我们介绍了微调类似于BERT的语言模型用于语音识别的想法,AISHELL-1的结果令人惊讶和印象深刻,但仍然有很长的路要走。
错误也可能是由于普通话是一种基于字符的语言,同一个语句可以映射到不同的字符。另外,该模型最初的语境很差,字数很少或没有。这样会传播误差,降低模型的性能。然而,看看这种方法在其他语言和其他语言模型(如AlBERT和GPT)中的表现将是有趣的。
与本文相关的类别