
Meta 开发的人工智能!与传统的自我监督学习模型不同,"HuBERT "模型的性能如何?
三个要点
✔️ 只预测遮蔽区域的损失函数
✔️ 利用聚类集合
✔️ 教师标签迭代改进
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
written by Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, Kushal Lakhotia, Ruslan Salakhutdinov, Abdelrahman Mohamed
[Submitted on14 Jun 2021]
comments:To appear at IEEE ICASSP 2024
subjects:Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
很高兴见到大家!
我是 AI-SCHILAR 的新作者小笠原。
本文介绍的就是这一点。
HuBERT:自监督语音表示隐藏单元的掩码预测学习"。
是
正如开头的要点所总结的那样,我们的目的似乎是要展示 HuBERT 模型在解决自我监督学习模型固有问题方面的实用性。
究竟用的是什么方法呢?让我们和我一起一点一点地学习吧~!
我们将尽可能简明扼要地向您介绍这一主题,请您不要离开我们,直到最后。
研究摘要
传统的自监督学习模型主要存在三个问题。
- 每个输入语句都包含多个语音单元。
- 预习阶段没有单元词典。
- 语音单元长度可变,没有明确划分
本文提出的解决这些问题的模型是 HuBERT。它旨在通过对损失函数采取一定的方法来提高识别准确率。
该模型的测试结果表明,识别准确率显著提高了 19%。
建议方法
上图 (a) 显示了本文提出的方法。
看了这么多,可能很难理解,让我们逐一解读。
本文的目的是让读者在阅读后能够审视和理解这一模型。
我会像我之前说过的那样,把它嚼碎了向你们解释,请跟着我走到底!
CNN(卷积神经网络)
许多读者可能会说他们知道这个。它很有名,经常用于成像领域。关于它的工作原理,一个简单的解释是,在神经网络的结构中内置了一种叫做卷积层的机制。
卷积层的优势在于,它能够提取高级特征,同时保留输入源的信息。因此,在本文的方法中,卷积层被用作特征提取器。
变压器
简而言之,注意力模型是一种不同于 CNN 和 RNN 的模型,它具有一种称为 "注意力 "的机制。"注意力 "是一种分数或类似的机制,当句子中某个单词的含义不清楚时,它可以指示出应该关注哪些单词。
在机器学习研究的历史长河中,这是一个非常新颖、非常革命性的优秀模型,可以说是机器学习领域的一场革命。BERT 及其模型系列和许多其他优秀模型都是作为包含这一机制的进化系统而存在的。
关于遮蔽
再看图 (a),在 CNN 和变压器之间,你会看到标有 MSK 的区域。这就是屏蔽区域。要详细解释这一点比较困难,所以我简单解释一下:有时与其传递编码器输出的所有数据,还不如随机选择并屏蔽输出数据后再传递,这样可以改善学习效果。
这种技术不仅经常用于语音,也用于图像和自然语言。
获得先验知识后
是的,我听懂了。到目前为止,我们已经解释了背景知识,但你是否能够理解呢?
论文似乎很难理解,事实上,仅从文字上理解论文需要很高的知识水平。
但是,研究人员也会做很多事情来让他们的想法和成果广为人知。论文中的图表就是其中之一。现在让我们来解读图(a),好吗?看这张图的方法是从下往上看。
- 语音输入。
- 输入的语音波形传递给 CNN,并转换成特征表示。
- 转换后的特征表示通过以下方式发送给转换器
- 在转换器中,通过 k_means 算法获得的声学单元被屏蔽,然后输入
- 变压器经过训练后,可以预测这一遮蔽区域。
这就是 HuBERT 模型的流程。你们明白了吗?一开始,有些人可能会想:'这是什么鬼东西?但是,一旦你理解了流程,结构就会出奇地简单。
这篇文章的目的是让你对它有一个粗略的了解,因此我省略了对机制和公式的详细解释。流程很简单,但这个模型非常精细。这篇论文还包括对数学模型的解释,因此如果您对模型感兴趣,我建议您阅读原文。
你明白了吗?迄今为止的反思
只有三件事是重要的!
让我们坚持住
- HuBERT 是一个具有隐藏层的 BERT 模型
- 结构简单,只有一个特征提取器和转换器
- 试图理解数学方法是一项深奥的
只要牢记这三点,剩下的就没问题了!
下一次,我们来看看实验。
我们就从这里开始!关于实验
非常感谢大家阅读了我这篇冗长的基本解释。接下来,我将解释本文最有趣的部分--实验。
实验装置
现在让我们来谈谈实验设置。在本实验中,我们使用 Librispeech 960 小时和 Libri-light 60000 小时对模型进行预训练。为了进行微调,我们再次使用 Libri-light(10 分钟、1 小时、10 小时)或 Librispeech(100 小时、960 小时)。最后,使用 k-means 聚类作为教师标签。
作为模型构建,我们设计了三个模型:HuBERT BASE、LARGE 和 X-LARGE。它们基本上基于 wav2vec 2.0 架构,参数分别为 95M、317M 和 964M。
实验结果如何?
低资源(Libri-light:10 分钟至 100 小时)等级
在低资源条件下的实验结果表明,HuBERT LARGE XLARGE 的性能优于 wav2vec 2.0。即使数据时间很短,只有 10 分钟,也能看到改进。
高资源(Librispeech:960 小时)评级
在 HuBERT LARGE 中,结果与 wav2vec 2.0 相当。但在 XLARGE 中,结果显示 WER 提高了 13%。
教师标签的质量分析
随着数据量的增加,k-means 聚类效果稳定,性能略有提高。使用 HuBERT 模型进行聚类产生的教师标签质量也明显优于 MFCC。
论文摘要
感谢大家的辛勤工作。我介绍了HuBERT 模型,它解决了自监督学习模型的问题。对我来说,结果非常有趣,也非常突破了常规。结果非常有趣,因为在资源较少的情况下,LARGE 也比 wav2vec2.0 更有优势,但当数据量更大时,它们就不分伯仲了。
毕竟,不尝试就无法理解研究。这是一篇非常好的论文,让我有一种可以颠覆假设的感觉~。
这项研究的结果可归纳如下
- 能够生成比传统 MFCC 质量更高的教师标签,主要是在特征提取方面
- WER 比 wav2vec 2.0 有所改进。
两个主要成果是
与女作家小笠原聊聊天
参加会议~!
会议发言 "是硕士研究生课程中的一项重要活动!我既期待又有点焦虑,但不,我还是很期待。
这是一个非常宝贵的机会,您的研究工作可以得到认真倾听,并得到专家的答复,因此您必须确保正确无误。
下篇文章再见。
我是小笠原,一个新手小妞作家~。
贾拜
与本文相关的类别