[单元-DSR] HuBERT 将残疾人语音正常化为正常语音

自监督学习 26/07/2024

三个要点
✔️ 基于语音单元的创新型发音障碍语音重建方法
✔️ 通用性强、可高效训练的 HuBERT 模型
✔️ 通过简单的双模块结构实现高度功能性

UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization

written by Yuejiao Wang, Xixin Wu, Disong Wang, Lingwei Meng, Helen Meng
(Submitted on 26 Jan 2024)
Comments: Accepted to ICASSP 2024
Subjects: Sound (cs.SD); Computation and Language (cs.CL); Audio and Speech Processing (eess.AS)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

很高兴见到大家！

我是 AI-SCHILAR 的新作者小笠原。

本文介绍的就是这一点。

使用语音单元规范化的发音障碍语音重建系统"。

是

正如导言中总结的那样，它似乎是一种创新的语音重建方法，采用了 MeTA 开发的 "HuBERT "模型，旨在通过将发音障碍语音转换为自然、可理解的语音来消除交流障碍。其目的是通过将发音障碍的语音转换为自然和可理解的语音，从而消除交流障碍。

究竟用的是什么方法呢？让我们和我一起一点一点地学习吧~！

我们将尽可能简明扼要地向您介绍这一主题，请您耐心听完。

建议方法

上图 (a) 显示了本文 [Unit-DSR] 中提出的方法。

看了这么多，可能很难理解，让我们逐一解读。

在单元式系统分析中，"只有 "两件事是重要的！

首先，Unit-DSR 是由语音单元归一化器和单元 HiFi-GAN 建立的模型。

更多详情、

语音单元正常化器：将听力障碍者的语音转换成正常人的语音模式，使数据更易于处理。
HiFi-GAN 单元：直接从语音单元归一化器获得的数据生成语音。

如果你记住了这两点，就能更好地理解后面发生的事情！

"HuBERT "是这项研究的基石

现在，您已经了解了提案方法的重要部分，我们将对模型进行更深入的研究--现在就开始吧。

请跟紧我们，慢慢前进。

首先，介绍一下 HuBERT。

简而言之，HuBERT是BERT 的进化版。

更详细地说，它是一种自监督学习模型，通过使用 k_means 方法对语音进行分类，并仅对掩蔽区域调整预测损失，从而创建伪标签来学习语音。

我认为，关键在于它是一种自监督学习模型。这是因为收集发音障碍者的语音非常困难。特别是对于许多脑瘫患者来说，"说话 "本身就是一件非常痛苦的事情。

自我监督学习是在听力障碍语音识别领域尤为重要的模型之一，因为近年来许多人工智能模型都需要大量的训练数据。该模型的源代码可在githab上获取，如果你感兴趣，可以尝试自己实现它，以便更好地理解。

这并不难！损失函数 "CTC 损失"

损失函数计算预测值与正确位置之间的 "差异"。在这种方法中，使用的是 CTC 损失。

什么是 CTC 损失？

损失函数通常用于标记时间序列数据。

它经常用于语音识别领域，因此只需记住"标记时间序列数据时经常使用 "即可！

作为补充，我们可以轻松地解释使用该功能的好处，那就是即使输入序列（音频）和输出序列（文本）的长度不同，它也能自动找到适当的排序。

最后，我们来解释一下图表！

モデルの説明

到目前为止，这还只是了解本图知识的前奏。

现在是时候开始了解有趣的图表了。

让我们一起阅读并理解它！

从左边的蓝色起点开始。

以受试者的声音（健全或残疾）表示
其中一些被载入 HuBERT 模型，权重被初始化后进入语音单位归一化器，另一些则进入 k_means 模型（本文将对后者进行解释）。
一旦进入 k_means 模型，语音就会被转换成一串数字，称为序列。
阅读系列，去掉重点。
至 CTC 损失

这一系列过程代表了标准化单元的提取。

然后从右边的绿色开始。

参考随机选择的声音（健全或残疾）
至语音单元正常化器
将语音波形转换为重建的归一化单位序列。
HiFi GAN 生成的音频。

这就是提案方法的一般流程。

详细的理论有些难以理解，因此我们想首先向大家介绍一下该方法的概况。

总之，到目前为止，我已经用咬文嚼字的方式解释了这一切，但你听懂了吗？

因此，让我们在这里花点时间反思一下我们所学到的东西！

你明白了吗？迄今为止的反思

只有三件事是重要的！

让我们坚持住

Unit-DSR 是由语音单元归一化器和单元 HiFi-GAN 建立的模型。
HuBERT 是 BERT 的进化版
损失函数计算预测值与正确位置之间的"差异"。

只要牢记这三点，剩下的就没问题了！

下一次，我们来看看实验。

我们就从这里开始！关于实验

非常感谢大家阅读了我这篇冗长的基本解释。接下来，我将解释本文最有趣的部分--实验。

使用的数据库

该系统的开发使用了UASpeech 语料库。

该语料库的一个特点是，它不仅包括健康人的语音，还包括构音障碍患者的语音。

顺便提一下，日本有各种语音数据库，例如那些读出 ITA 语料库的数据库，但所有这些数据库都是基于健全人的语音，就我所知，我没有找到任何记录残疾人语音的数据库。

正如我在开头所说，收集构音障碍者的语音极其困难，建立一个数据库更是难上加难，但我相信，如果没有一个人人都能使用的数据库，对残疾人语音的研究就不会取得进展。

我们衷心希望日本的数据库研究也能取得进展。

使用系统设计

本实验中使用的系统是图 (a) 中所示的 Unit-DSR 系统。

在实验条件中，给出了详细的参数调整和每一层的细节说明，但由于本文的目的是让大家对本文有一个大致的了解，这些内容就省略了。

如果您感兴趣，我们提供了该论文的 URL，欢迎您亲自阅读！

实验结果如何？

与以前的方法相比，这种拟议方法的性能是否有所提高？

让我们从两个角度来看看实验结果。

1: 内容修复

在评估该项目时，进行了MOS 测试和语音识别测试。

为了收集主观数据，我们进行了MOS 测试，即让听者（20 人）准备并要求他们将随机选取的重建语音与现实生活中的原始语音进行比较，并对两者的相似程度进行伪评分。

随后是语音识别测试。该测试旨在收集客观数据，并使用名为 Jasper 的语音识别模型测量单词错误率。

上图显示了实验结果。黄色标记的区域是本次实验的系统。

总之，该系统很好地证明了重建准确内容和发音语音的实用性。

然而，挑战在于重建后的语音仍包含许多音素错误，语音识别测试结果不佳。

尽管如此，能够证明内容恢复的准确性明显优于以前的模型，我们还是感到非常高兴和欣慰。

2: 声源环境的变化会影响精确度吗？

该终点检测输入语音分布的变化对重建归一化单元的影响程度。

具体来说，改变听力障碍语音的回放速度是为了模拟患者语速的变化。然后故意加入噪音，以考虑各种录音条件。

通过评估实验，证实Unit-DSR 系统对输入语音分布的波动具有鲁棒性。

就我而言，我对结果感到非常兴奋。

这是因为，在日常交谈或与外出的人交流时，抗噪功能可大大提高实用性。

这是因为传统模型对噪音很敏感，尤其是在听力 障碍者的语音中，而且只有在特殊空间，如实验录音环境中才会准确。我不得不说，这是一项非常创新的技术。

论文摘要

此次提出的单元-DSR 系统可将听力障碍语音归一为正常语音模式，并直接从语音单元生成波形。

这项研究的结果可归纳如下

首次在 DSR 任务中引入语音单元，记录的性能比以前的型号更好
使用具有高适应能力的 HuBERT 可显著提高学习效率。

两个主要成果是

与女作家小笠原聊聊天

嗯--这篇论文确实让人大开眼界，因为它包含了非常具有开创性的内容！

我认为这篇论文的两个亮点是

自监督学习模型的使用消除了缺乏训练数据的问题。
倡导一种在嘈杂环境中也能保持稳定的模式。

在这一点上

我读过的日文论文比英文论文多，其中很多都提到了这两个问题。我认为，这篇论文找到了解决其中一个问题的办法，这真是太好了。

但这次实验的规模非常大。我们使用了多个残疾人的声音，还使用了数千小时的语音数据库。

遗憾的是，要进一步发展这项实验似乎有点困难，因为要学习这么多知识，需要几台昂贵的 GPU 和财力。

闲话少说，好吗？

非常感谢所有读到最后的读者。

由于这是一篇由新手小鸡撰写的文章，可能有些地方难以阅读或理解。

尽管如此，如果我们能够为每一位读到最后的读者 提供一些有趣的知识，我们也会感到 非常高兴。

下期文章再见。

我是小笠原，一个新手小妞作家~。

贾拜

与本文相关的类别

アサさん