零点迁移学习：从多语言语料库数据中对未学习语言进行语音识别的创新技术！

肢体瘫痪者的语音识别功能 07/08/2024

三个要点
✔️ 即使没有语言数据也能进行高精度语音识别
✔️ 一种简单而创新的方法
✔️ 处理多语言数据的有效方法

Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
written by Qiantong Xu, Alexei Baevski, Michael Auli
[Submitted on 23 Sep 2021]
subjects:Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

很高兴见到大家！

我是 AI-SCHILAR 的新作者小笠原。

本文介绍的就是这一点。

简单有效的零点跨语言音素识别"。

是

正如本文开头的要点所总结的那样，我们的目标似乎是用多种语言微调预先训练好的 wav2vec2.0，并识别未学习的语言。

究竟用的是什么方法呢？让我们和我一起一点一点地学习吧~！

我们将尽可能简明扼要地向您介绍这一主题，请您耐心听完。

为什么要开展这项研究？

世界上有许多语言，但只有少数语言的语音识别研究取得了进展。许多语言的研究没有取得进展的原因在于，目前的模型需要大量的标注语音数据。

近年来语音识别研究的快速发展证实，少量的训练数据就足以达到足够的准确度，但也存在一个重大缺陷：必须为每种语言准备模型。

因此，本研究的目标是使用由多种语言组成的标签进行零记录转录。

方法

利用多语言数据进行自学
用多种语言进行微调。还有语音意识。
在推理过程中使用从学习语言音素到目标语言的音素映射
针对所有未学习语言测试微调模型

检查基本术语

什么是音素？

它是如此重要，以至于在语音识别研究中经常出现。音素是我们说话时的最小发音单位。只要记住它是最小的发音单位就足够了。

什么是微调？

根据自己的用途和任务，使用自己的数据额外训练预训练模型。通过这种方法，您可以将广义模型调整为易于使用的模型。

什么是 wav2vec2.0？

预训练模型，即在建立模型阶段已在海量数据上训练过的模型。训练数据量确实巨大。你不可能在一所研究生院里复制它。这样做的好处是，由于事先已经在海量数据上进行了训练，因此只需要少量数据就可以进行微调。

实验装置

关于学习模式

本研究使用的模型是wav2vec2.0 XLSR-53。这将是一个多语言学习模型，已在 53 种语言上进行过训练。

关于数据集

使用了三种主要的多语言语音库。这些语言包括荷兰语、法语、德语、意大利语和葡萄牙语。

此外，使用的语言种类繁多，音频播放时间很长。

要学会使用这台超高性能计算机，肯定要花很长时间。

关于学习模型

该模型是用 fairseq 实现的。这是 META（前身为 Facebook）在 githab 上发布的用于构建机器学习模型的开放源代码。

只要懂一点 Python 和英语，任何人都可以免费使用它，并建立机器学习模型。

回到主题，所使用的模型将是经过预训练的 XLSR-53 模型，该模型已进行了约 56 000 小时的预训练。与学习相关的参数目前不在讨论之列。

你明白了吗？迄今为止的反思

只有三件事是重要的！

让我们坚持住

在多语言数据集上进行训练，尝试转录未学习过的语言。
使用 wav2vec2.0 XLSR-53
需要进行大量细致的参数调整

只要牢记这三点，剩下的就没问题了！

实验结果如何？

与无监督方法的比较

现在，第一个实验将零点过渡学习与无监督 wav2vec2.0 进行比较。两者使用的模型相同。

至于这个实验的结果，你可以看到零点过渡学习和无监督模型几乎同样出色。老实说，这是令人惊讶的。如果这是可能的，那么在各种语言中使用它将是现实的。

如果物联网要在未来变得越来越普遍，这项技术将非常重要。

与其他零镜头的比较

将其性能与本研究之前的模型进行比较。在这里，你又可以轻松实现零投篮（如果你是一家公司的话）。与建立单个模型相比，它的数据密集度要低得多。在某些方面，其结果优于监督模型的结果，这是一种真正的创新方法。

不过，它的瓶颈在于必须在大量的时间数据上进行训练，因此除非大学或公司拥有超级计算机，否则很难复制。

论文摘要

感谢大家的辛勤工作。我们介绍的是利用多语言数据对未学习语言进行零点转移学习。在英语和其他主要语言的语音识别方面有很多研究。

世界上有如此之多的语言，要为每一种语言都建立模型将非常昂贵和耗时。

从这个角度看，这种 "零镜头 "方法大有可为。大家对此有何看法？

这项研究的结果可归纳如下

无需专门为未学习语言建立模型
准确率高，与有监督和无监督模型相比毫不逊色。

两个主要成果是

与女作家小笠原聊聊天

信息系统实验是不成熟中的不成熟。

一旦你提出了假设并制定了方案，剩下的事情就交给你自己去做，直到完成为止。制定方案也是一个泥沙俱下的过程。即便如此，当结果与我的假设相符时，我还是会很高兴；即使结果与我的假设不符，思考一下为什么会是这样的结果也是很有趣的。

我经常制作与人工智能相关的语音识别程序，因此我使用了很多库，但我都是在黑盒子状态下制作的，并没有真正了解库中的内容。我认为这样做不太好，因为有很多不同的库，每个库都有很多可以使用的功能。要了解所有这些库，有点令人生畏，不是吗？

工程师如何与图书馆打交道？

程序库非常有用，但我认为，当错误原因与程序库有关时，程序员在解决错误时经常会遇到困难。

下期文章再见。

我是小笠原，一个新手小妞作家~。

贾拜

与本文相关的类别

アサさん

零点迁移学习：从多语言语料库数据中对未学习语言进行语音识别的创新技术！

介绍

为什么要开展这项研究？

方法

检查基本术语

什么是音素？

什么是微调？

什么是 wav2vec2.0？

实验装置

关于学习模式

关于数据集

关于学习模型

你明白了吗？迄今为止的反思

实验结果如何？

与无监督方法的比较

与其他零镜头的比较

论文摘要

与女作家小笠原聊聊天

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分 ...

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...