赶上最新的AI论文

[WavLM]超越所有语音识别模型!结构和性能如何?

[WavLM]超越所有语音识别模型!结构和性能如何?

语音处理

三个要点
✔️ 解决多人语音任务的问题
✔️ 通过学习过程中的掩码和大幅扩展训练数据量来提高性能

✔️ 不仅仅在语音识别方面,在各种任务中都有很高的表现

WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
written by Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, Furu Wei
[Submitted on 26 Oct 2021 (v1), last revised 17 Jun 2022 (this version, v5)]
Comments:   Submitted to the Journal of Selected Topics in Signal Processing (JSTSP)
Subjects:   Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

什么是 "超能男人",WavLM?

刚读到这个!论文超级摘要!

WavLM 是一种相对较新的人工智能模型,可以执行与语音处理相关的各种任务。与监督学习、无监督学习或 wav2vec2.0 等传统模型不同的是,它不仅在语音识别方面表现出色,在说话人识别和语音分离等各种语音相关任务中也同样出色

近年来,自监督学习(如 wav2vec2.0)在语音识别领域取得了巨大成功,但在其他语音处理任务中的应用却很有限。由于语音信息包含多种多样的信息,如说话人的特征和情感,因此开发这样一种可应用于所有任务的梦幻模型是一项挑战

这项研究旨在开发一种通用的预学习模型,它可以在一个模型中完成语音识别和说话人识别等多种任务

在被视为语音处理任务基准的 SUPERB 中,WavLM的表现优于之前的模型,不仅如此,它还在各种任务中显著提高了准确性

尽管在传统任务中,wavLM 是针对特定任务的,但它却能在所有任务中表现出色,这在很大程度上是因为它采用了预测掩蔽区域的学习方法,并利用更多样化和更大的数据集进行学习

这项研究显示了通用模型的潜力,它可以从语音信息中提取各种信息,并将其应用于各种任务,这也证明我们离梦想中的模型又近了一步。

这一模型的成功将使人们对人类语音有更多方面的了解,并使模型更小巧、更通用,可以应用于各种方式,将来能够更自然、更有效地执行任务

WavLM 的结构与 HuBERT 相似吗?

我需要解释一下 HuBERT。

HuBERT 是 META 开发的一种自学习模型,其特点是根据 k_means 方法从语音中提取特征。它也是一个需要数千或数万小时预训练的模型,因此任何个人或大学都不可能复制,但它却是一个非常强大的模型

现在请看下图。该图显示了 HuBERT 的结构。

简而言之,输入的语音信息经过 CNN 后,再由转换器进行处理,但这里有一个主要特点。它可以屏蔽(隐藏)部分输入信息

换句话说,你不能把所有的音频信息都完整地输入进去,但你要敢于让它缺失。之后,当你从转换器中出来时,你会被要求预测所给信息中缺少了什么!建模者被迫做出预测。

通过敢于制造赤字和预测赤字的任务来学习模型,你就能获得比传统模型无可比拟的性能

言归正传,在本文中提到的WavLM具有几乎相同的结构。当然,如果深入研究,您会发现论文中的数学和结构差异,但我省略了这些差异希望这篇文章能帮助您了解表面细节

WavLM 在哪些数据集上接受过训练,训练程度如何?

上表显示了部分实验结果。您可能不清楚这些结果是什么,但可以了解到WavLM 的性能优于其他型号

难道你不想知道这些神奇的模型是如何学会的吗?这其中有一些非常神奇的东西。

然后,我们将开始第一次。

使用的数据集是

Librispeech 60000 小时。
Gigaspeech 10000 小时。
VoxPopul 24000 小时。

仅这一点就很糟糕。这是我要回调一下的可怕程度。我总是用一个多小时的数据来做实验,所以这已经是云泥之别了。

有关学习方法的更多信息,请参见

  1. 屏蔽部分输入语音。在语音中添加人工噪音。
  2. 该模型同时执行预测掩蔽部分语音和去除噪音的任务。
  3. 使用变压器准确捕捉语音序列

研究遵循这三个步骤。如果您有些困惑,不妨再看一遍解释结构的图表

最后,关于学习时间,这只是我的猜测,因为没有明确说明使用了什么 GPU 以及花费了多少小时,但我怀疑他们使用了一台类似超级计算机的大型机器,并在上面花费了数天时间

我只能说它太神奇了。因为我永远无法复制它。不光是我,就连大学老师都可能有困难。....我真得向外国公司的资金和研究实力致敬

WavLM 产生了哪些影响?

最后,让我们来读一读这个在本文中出现过多次的表格,看看这个模型对结果有什么影响

是的。现在得出结论。该表显示的是语音分离任务中的单词错误率评估!这只是错误率,所以数字越小,成绩越好。(我曾经弄错过,结果让我的老师很尴尬:....)

您知道什么是语音分离吗?举个例子,假设有两个人同时说话。如果你是圣德太子,也许能听到两个人同时说话,但对普通人来说是不可能的。当然,这也适用于语音识别模型。在这种情况下,就需要使用语音分离任务,将两个重叠的声音逐一坚决地分离出来

这个结果是逐一分解的结果,听起来对吗?有没有重大错误?已经确保没有重大错误。

从表中可以看出,这些数字都低于其他模型,对吗?这就是该模型的语音分离准确度有多高

在本文中,我们对各种与语音相关的任务进行了实验,每种任务的性能都优于其他模型。我很想介绍一下这些结果,要了解东西太多了,为了清楚起见,我只想介绍这个表格

如果你想知道,这里有论文链接,可以查看!

与女作家小笠原聊聊天

我们正在寻找有兴趣开展联合研究的公司和研究生!

他的专长是语音识别(实验系统),尤其是针对肢体障碍者

这方面的资源有限,因此单独工作总是有限的

谁愿意利用最新技术共同解决社会问题?

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们