![[Google × Meta] XLS-R 大型模型用于处理语音识别和语音翻译](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/September2024/xls-r.png)
[Google × Meta] XLS-R 大型模型用于处理语音识别和语音翻译
三个要点
✔️ 大容量跨语言语音表示模型 XLS-R
✔️ 语音翻译和语音识别的性能显著提高
✔️ 大容量跨语言模型与单一语言模型的比较
XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale
written by Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli
[Submitted on 17 Nov 2021 (v1), last revised 16 Dec 2021 (this version, v3)]
comments:To appear at IEEE ICASSP 2021
subjects:Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
很高兴见到大家!
我是 AI-SCHILAR 的新作者小笠原。
本文介绍的就是这一点。
xls-r:大规模自监督跨语言语音表征学习"。
是
正如本文开头的要点所总结的那样,我们的目标似乎是大幅改进 wav2vec2 模型,提高语音识别的准确性。
究竟用的是什么方法呢?让我们和我一起一点一点地学习吧~!
我们将尽可能简明扼要地向您介绍这一主题,请您不要离开我们,直到最后。
研究摘要
本文提出了一种基于 wav2vec 2.0 的用于多语言语音表示学习的大规模 XLS-R。它的规模非常大,拥有多达 2 亿个参数和 128 种语言共约 46 万小时的公开语音数据。
这是一个非常庞大的项目,之所以能够完成,是因为 Meta 和谷歌这两家世界领先的公司参与了本文的编写。
评估的一个特点是,对各种任务和语言的性能进行了评估,而不仅仅是语音识别。评估结果表明,语音翻译的准确率达到了有史以来的最高水平,语音识别的错误率也有了显著提高。
论文没有描述模型的算法或设计方法,因此,请慢慢研究是什么过程导致了这些结果!
我会记住的
wav2vec2.0
该模型由 facebook(Meta)开发。该模型的特点是采用端到端方法,将语音信号与文本连接起来。该模型另一个令人印象深刻的特点是它是自监督学习。这意味着在学习的第一阶段,只能使用大量未标记的语音。
而根据我们用户在使用它时想要完成的任务,通过对少量数据进行微调,可以取得良好的效果。
微调
很多读者都知道这一点,但为了以防万一,我还是要补充解释一下。简单地说,这意味着定制一个现成的模型,以适应您要执行的任务。
例如,假设您购买了一副预制的纸牌游戏。你多次用这副牌与朋友对战,但就是赢不了。因此,为了打败朋友的卡组,你购买了功能强大的反制卡,并将它们加入卡组中。
简而言之,您可以对这一过程进行调整,使其更易于使用。
先前学习
正如 wav2vec 2.0 中解释的那样,这种模型需要两个阶段的训练。它是预训练,所以我们说的是第一阶段的学习。在这种模型中,可以使用大量未标记的语音数据进行自监督学习。
语音语料库数据集
语音数据集是由公司或志愿者朗读以音素和其他元素平衡创建的文本而生成的。尤其是英语数据集,种类繁多,记录时间很长。这些数据集的可用性是改进语音识别技术的关键,同时也显示了美国的强大实力,因为谷歌和 meta 等全球巨头都在美国。
在日本,有一些语料库,但数量并不多,因为许多语料库都很陈旧,或者是有偿创建的。不过,近年来出现了免费开源的 ITA 语料库,并被许多研究人员和创作者使用。著名的例子包括 Zundamon。
你明白了吗?迄今为止的反思
只有三件事是重要的!
让我们坚持住
- 必须基于 wav2vec 2.0。
- 无论如何,参数和训练数据的数量都是巨大的。
- 模型的准确性应大大提高。
只要牢记这三点,剩下的就没问题了!
下一次,我们来看看实验。
我们就从这里开始!关于实验
非常感谢大家阅读了我这篇冗长的基本解释。接下来,我将解释本文最有趣的部分--实验。
实验装置
- 设置 wav2vec2.0 作为预训练。通过调整参数数量进行优化。
- 利用超强 GPU 学习
- 使用多语种语料库平衡模型
实验准备工作到此结束,剩下的工作就是针对每项任务进行微调,并对实验结果进行评估。
实验结果如何?
语音翻译
在从一种语言到英语的语音翻译任务中,所有资源量都有显著提高。在大多数情况下,增加模型大小也能提高基准性能。
此外,在从英语翻译到一种语言的过程中,大型模型的表现与纯英语预训练模型不相上下。这表明,只要有足够的能力,多语言模型的性能就能与单语言预训练模型相媲美。
语音识别
与翻译任务不同的是,这项任务在少量和中等量的训练数据上都有显著的机构改进。
论文摘要
感谢大家的辛勤工作。我在这里介绍的是通过对 wav2vec2.0 进行大量修改,对其在各种任务和语言上的性能进行评估的尝试。老实说,我认为这项研究与普通研究生相比有天壤之别。很难收集到如此大量的语音数据,而且我也没有超高性能的 GPU,无法在大型数据集上进行训练。
大约 46 万小时的学习数据是多少?也许即使我们收集了日本现有的音频数据集,也达不到这个数字。但我确实发现了一件好事!那就是,即使规模如此之大,语音识别率的增长也是有限度的。
因此,质量和数量都很重要。
这项研究的结果可归纳如下
- 首先,体积太大,无法复制(*可提供模型)
- 翻译任务和语音识别分类的准确性都有所提高。
两个主要成果是
与女作家小笠原聊聊天
他说,人工智能不是超人,也不是什么哆啦A梦。
读到最后的读者一定已经非常清楚这一事实。但是,普通大众对人工智能的了解太少了。
就算我上网看看,人工智能也能做任何事,不是吗?那我就不用工作了。看到有人写 "人工智能无所不能",我有点傻眼了。知己知彼。了解得越多,你就越不会害怕,越不会焦虑。你现在一定正拿着智能手机或鼠标吧?
我说的是冷漠和不假思索是多么可怕。
下篇文章再见。
我是小笠原,一个新手小妞作家~。
贾拜
与本文相关的类别