语音与图像融合！多模态方法 "AV-HuBERT "在肢体障碍者的语音识别中是否大放异彩？

肢体瘫痪者的语音识别功能 31/08/2024

三个要点
✔️ 首次提出利用视觉信息进行多模态障碍语音
✔️ VGG 和 AV-HuBERT 学习
✔️ 显著提高语音理解能力和自然度

Exploiting Audio-Visual Features with Pretrained AV-HuBERT for Multi-Modal Dysarthric Speech Reconstruction
written by Xueyuan Chen, Yuejiao Wang, Xixin Wu, Disong Wang, Zhiyong Wu, Xunying Liu, Helen Meng
[Submitted on 31 Jan 2024]
comments: To appear at IEEE ICASSP 2024
subjects:Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

很高兴见到大家！

我是 AI-SCHILAR 的新作者小笠原。

本文介绍的就是这一点。

使用具有视觉特征的 AV-HuBERT 多模态修复听障语音

是

正如导言中总结的那样，其目的似乎是通过使用视觉信息来改善发音障碍，从而提高语音识别的准确性。

究竟用的是什么方法呢？让我们和我一起一点一点地学习吧~！

我们将尽可能简明扼要地向您介绍这一主题，请您不要离开我们，直到最后。

谁有发育障碍？

首先，必须牢记什么是构音障碍。简单地说，构音障碍就是由于某些先天或后天因素造成的语言器官缺陷，从而导致无法正常说话的一种疾病。

这种障碍多见于后天性脑瘫患者。构音障碍的另一个重要特征是，每个人说话的特点和倾向各不相同。

这些特点使得障碍语音识别领域的研究充满挑战。阅读障碍语音识别的流程见上图。

研究摘要

回顾发音障碍者的语言特点。

说话不规范。
鼻音重，说话含糊不清。
个人的语言特点和倾向不同

这三点不正是发育不良者的主要特征吗？

在这项研究中，我们的目标是通过使用结合视觉和听觉两种信息的多模态技术来提高语音识别的准确性，从而解决这一问题。

建议方法

上图显示了本文提出的方法。

看了这么多，可能很难理解，让我们逐一解读。

本文的目的是让读者在阅读后能够审视和理解这一模型。

我会像我之前说过的那样，把它嚼碎了向你们解释，请跟着我走到底！

什么是多模式？

首先，让我们牢牢抓住这一点。多模态是一种使用多种信息的技术。例如，在这种情况下，它就像是音频信息 x 视频信息。

将视频信息用于语音识别是不是很奇怪？但是，据研究人员说，它提高了语音识别的准确性。首先发明它的研究人员真是了不起。

这种技术不仅可用于语音识别，还可用于生成任务，这也是时下的热门话题！

VG

它是深度学习方法之一。其特点是卷积层统一为 3×3。这就减少了参数的数量。

我可以说得更详细一些，但我只想说，这次是深刻的学习之一。

AV-HUBERT

这是由 Meta 公司开发的 HuBERT 的衍生模型。它是一个使用视频信息的多模态模型，因此可以执行读唇和语音识别等任务。作为一种机器学习方法，它是一种自监督学习模型、

音频修复

您对语音合成和语音质量转换技术了解多少？这两种技术都是由机器产生语音的技术。它们都是非常创新的技术，但很难保持说话者的声音。因此，我们正在开发这种语音恢复技术，目的是保持更像说话人的语音质量。

获得先验知识后

是的，我听懂了。到目前为止，我们已经解释了背景知识，但你是否能够理解呢？

这篇论文比较了三种方法，但我想让大家记住的是 AV-HuBERT 的结构和模型，它是 HuBERT 的衍生物，因此我将跳过其他两种方法。如果你感兴趣，请阅读论文原文。

现在让我来解释一下方法！

音频和图像输入
音频输入音频特征提取器，图像输入图像特征提取器。
提取的特征已停靠
对接特征被发送到预训练的 AV-HuBERT
由 AR 解码器处理

这就是使用 AV-HuBERT 模型的流程。你看懂了吗？一开始，有些人可能会想：'这到底是什么？但一旦你理解了流程，方法本身就会出奇地简单。

在这篇文章中，我省略了对机理和公式的详细解释，目的是让你大致了解你会得到什么。我们希望您能对我们的意思有一个大致的了解。

你明白了吗？迄今为止的反思

只有三件事是重要的！

让我们坚持住

同时使用音频和图像信息的多模态方法。
这是本文中第一种基于多模态的语音识别方法。
验证语音修复的清洁度和自然度。

只要牢记这三点，剩下的就没问题了！

下一次，我们来看看实验。

我们就从这里开始！关于实验

非常感谢大家阅读了我这篇冗长的基本解释。接下来，我将解释本文最有趣的部分--实验。

实验装置

现在让我们来谈谈实验环境。本实验使用了三组英语语音数据。其中还包括残疾人语音。

在此，我们选择了数据集中的四种残疾人声音，并为这四种声音创建了各自的系统，从而验证了本研究的实验结果。

实验结果如何？

以下是这次实验的结果，您应该注意。左起第三列

这就是本期的主要特点，即基于 AV-HuBERT 方法的字符错误率结果。

其结果是成功地减少了文本错误！然而，在我看来，这一结果似乎与开发该系统的难度并不平衡。我有点失望。这个领域还有很大的研究空间。

让我失望的原因是，即使对常用的 HuBERT 方法进行了残疾人语音优化，文本错误率也会提高。好吧，简单地说，你大可不必如此大费周章。

但这只是在只考虑文本错误率的情况下。这种方法产生的是语音。而且它保持了说话者的本性。这使得本实验的结果非常有价值：如果它能用于一对一交流，将使交流变得更加容易。

该研究采用听力测试作为主观比较研究；所有 AV-HuBERT 型号的得分都较高，尤其是病情较重的患者显示该系统更为有效。

论文摘要

感谢大家的辛勤工作。我介绍的是一种使用视觉和听觉信息生成语音的多模态方法，它保留了语音的说话性。对我来说，这是一项非常有趣的研究。文字识别率的提高并不是很理想，但在保持说话人身份的同时生成更容易听的语音是有可能的。

这项研究的结果可归纳如下

在这一阶段，有可能在保持健谈的同时生成易于倾听的语音
多模态方法在语音生成任务中也很有效

两个主要成果是

与女作家小笠原聊聊天

成为研究人员的道路漫长而艰辛。

你必须先攻读硕士学位，然后再攻读博士学位，所以你的准备期比一般人要长。而且越往后，难度越大。这真的是又长又陡。

而且，获得博士学位后，要想获得一个职位并不容易。但我已经下定决心了。

让我们继续前进。

下篇文章再见。

我是小笠原，一个新手小妞作家~。

贾拜

与本文相关的类别

アサさん

语音与图像融合！多模态方法 "AV-HuBERT "在肢体障碍者的语音识别中是否大放异彩？

介绍

谁有发育障碍？

研究摘要

建议方法

什么是多模式？

VG

AV-HUBERT

音频修复

获得先验知识后

你明白了吗？迄今为止的反思

我们就从这里开始！关于实验

实验装置

实验结果如何？

论文摘要

与女作家小笠原聊聊天

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者的语音进行适配

[让每个人都能享受便利......]使用 WHISPER 对发音障碍者 ...

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

[你使用的是 Wav2vec2？这是一种更有效的语音特征提取方法

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

一项极具挑战性的分类任务！使用 WHFEMD 算法准确、高效地捕捉和分 ...

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分类的！

一篇推翻传统观点的论文！听力障碍者是根据噪音而不是根据他们的特征进行分 ...

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音语料库

平等享受便利！EasyCall 语料库"，这是一个针对听力障碍者的语音 ...

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何 ...