赶上最新的AI论文

生成听力障碍语音!解决训练数据不足的神奇数据扩展技术是什么?

生成听力障碍语音!解决训练数据不足的神奇数据扩展技术是什么?

声音

三个要点
✔️ 比较研究不同数据扩展技术在微调听力障碍语音方面的应用
✔️ 建立一个能分离说话人和语音内容特征的新 GAN 模型

✔️ 结合不同的数据扩展和预训练模型,实现 16% 的单词错误率。

Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation
written by Huimeng WangZengrui JinMengzhe GengShujie HuGuinan LiTianzi WangHaoning XuXunying Liu
[Submitted on 1 Jan 2024]
comments:To appear at IEEE ICASSP 2024
subjects:Sound (cs.SD); Audio and Speech Processing (eess.AS)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

很高兴见到大家!

我是 AI-SCHILAR 的新作者小笠原。

本文介绍的就是这一点。

逆向数据增强,改善自我监控学习(SSL)预训练自动语音识别(ASR)系统对良性发音困难语音的微调

正如本文开头的要点所概括的那样,其目的似乎是比较各种数据增强技术,以解决长期存在的听力障碍语音数据短缺问题

究竟用的是什么方法呢?让我们和我一起一点一点地学习吧~!

我们将尽可能简明扼要地向您介绍这一主题,请不要离开我们,直到最后。

本研究的意义

在介绍这项研究之前,我想让大家知道几件事。

这是因为缺乏数据,而且患有相同残疾的说话者之间的发音趋势差异很大,这也是残疾人语音识别研究困难重重的原因

第一种情况很容易理解。很多构音障碍患者都是由于意外或其他后天原因造成的。这些人在实验室等场所行动不便,而说话又需要耗费大量体力

目前的情况是,由于以下原因,很难收集数据。

其次,由于不同说话者的发音倾向各不相同,因此很难构建通用模型。这也是残疾语音研究不具有普遍性的另一个重要原因。

这两个原因是没有取得进展的两个特别重要的原因,而残疾人语言研究的现状是,还有许多其他问题难以解决。

无法令人满意地与他人沟通是一种真正的困扰。它还会降低自尊,让你远离社会参与。

残疾语言研究非常重要,它可以帮助即使是这样一个发育不良的人建立自尊感,促进社会参与

建议方法

上图 (a) 至 (d) 展示了本文提出的方法

看了这么多,可能很难理解,所以让我们逐一解读。

本文的目的是让读者在阅读后能够审视和理解这四种模式。

我会像我之前说过的那样,把它嚼碎了向你们解释,请跟着我走到底!

先看(a)项。

这种方法 (a) 更像是一种传统的 DCGAN 数据扩展方法

DCGAN 可以简单地解释为传统 GAN 模型的升级模型,并增加了一个类似 CNN 的层

在这种方法中,要准备正常语音和残疾语音的并行数据。在匹配语句长度后,生成器 G 从正常语句中生成一个伪残疾语句,然后对鉴别器 D 进行训练,使其能够区分其输出和实际残疾语句。

让我们看看 (b)。

这种方法是一种附加了随扬声器变化的速度性能变化的模型。

即使是取决于说话者的语速变化也是不够的,因为每个说话者的语速不同简单的语速变化也是不够的。

因此,将每个说话人的正常语音和经过调整的语速输入 (a) 中的模型,以生成与说话人相关的伪失能语音。

让我们看看 (c)。

下一步是光谱基 GAN 方法。

迄今为止的方法都需要并行数据。不过,这种方法也可用于非并行数据

将正常语音和残疾语音的频谱图分解为 SVD 分解图,对生成器 G 进行特征向量 U 的训练,并对判别器 D 进行训练,以区分其种子强度和实际残疾语音。

另外,SVC 分类是一项使用支持向量机的分类任务

让我们看看 (d)。

因此,该模型是一种使用依赖于扬声器的频谱基 GAN的方法。

(c)中的方法被扩展为依赖于说话者的版本,即从生成器中输入正常语音的特征向量 U,每个说话者的表现都不同,其结果被用于生成最终的伪障碍语音的时间基础。

看四种方法。

是的,我有。到目前为止,我们已经介绍了四种方法,你是否已经掌握了这些方法?

论文似乎很难理解事实上,仅从文字上理解论文需要很高的知识水平

但是,研究人员也会做很多事情来让他们的想法和成果广为人知论文中的图表就是一个例子。

如果你仔细观察一个给定的图表,你可以看到很多东西。它可能是一个数学公式、一个你想提出的模型,或者是一些仅靠文字难以理解的东西。当你自己阅读论文时,尽量注意图表!

你明白了吗?迄今为止的反思

只有三件事是重要的!

让我们坚持住

  1. 言语发育不良的情况很少见,而且缺乏训练数据
  2. 数据扩展方法可以解决训练数据不足的问题。
  3. 我们的目标不仅是解决数据短缺问题,还包括提高语音识别的准确性。

只要牢记这三点,剩下的就没问题了!

下一次,我们来看看实验。

我们就从这里开始!关于实验

非常感谢大家阅读了我这篇冗长的基本解释。接下来,我将解释本文最有趣的部分--实验。

使用的数据库。

该系统的开发使用了UASpeech 语料库

该语料库的一个独特之处在于,它不仅包括健康人的语音,还包括构音障碍患者的语音

顺便提一下,日本有各种语音数据库,例如那些读出 ITA 语料库的数据库,但所有这些数据库都是基于健全人的语音,就我所知,我没有找到任何记录残疾人语音的数据库。

正如我在开头所说,收集构音障碍者的语音极其困难,建立一个数据库更是难上加难,但我相信,如果没有一个人人都能使用的数据库,对残疾人语音的研究就不会取得进展

我们衷心希望日本的数据库研究也能取得进展。

实验装置

现在让我们来谈谈实验设置。在本实验中,使用了两个 SSL 模型(wav2vec 和 HuBERT)评估生成的伪残疾语音。这些模型经过预训练和进一步微调。通过比较有数据增强和无数据增强的模型证明了数据增强这些模型的有用性

实验结果如何?

让我们逐一查看模型(a)至(d)的实验结果。

(a) 结果。

这个模型是基于 DCGAN 的模型,不是吗?在这种方法中,它的表现要好于本文后面展示的速度-性能变化模型:使用 SSL 模型对字词错误率进行检查,结果非常好,最大错误率为 9.03%。然而,对并行数据的需求不可避免地成为瓶颈

(b) 结果。

这是根据说话者的速度性能变化和 DCGAN 的组合。对于这种方法,论文中没有具体说明单独使用时的性能评估,但与 (a) 中的方法结合使用时显示出了很高的性能

(c) 结果。

这个模型是光谱基 GAN 模型,不是吗?这种方法的性能比无数据扩展和正常速度性能变化要好,但略低于(a)

(d) 结果。

这就是在(c)中学习到的 GAN 对每个说话人的性能改变后的正常语音产生的效果,不是吗?这比之前基于 GAN 的数据增强方法的性能要好得多,即使将它们结合起来,最终的单词错误率也只有 16.53%,这是一个非常好的结果

论文摘要

感谢大家的辛勤工作。这次演讲是对四种数据扩展方法的比较研究。对我来说,结果非常有趣,因为使用 DCGAN 的相对简单的模型比 SVC 分类等更复杂的方法得到了更好的结果

毕竟,不尝试就无法理解研究。这是一篇非常好的论文,让我有一种可以颠覆假设的感觉~

这项研究的结果可归纳如下

  1. 数据扩展法是解决发音障碍数据缺乏问题的有效方法。
  2. 基于 DCGAN 的方法不仅解决了数据短缺问题,还提高了字错误率

两个主要成果是

与女作家小笠原聊聊天

缺钱。

我说的是钱,但我说的是研究经费。

我是一所国立大学的硕士生,刚被分配到实验室时,我乐观地认为,只要有一台个人电脑,信息技术就花不了多少钱。但当我开始从事研究工作时,我发现我想要更好的 GPU,我想去参加会议收集信息,尽管我并没有展示我的研究成果。

GPU 的成本高达数十万美元,我希望硕士生的研究经费也能多一点,再加上参加会议的交通和住宿费用--好了,这就是我们要聊的话题!

下期文章再见

我是小笠原,一个新手小妞作家~。

贾拜

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们