连听力障碍者都想使用语音激活系统！"。什么是语音激活系统的语料库和语音激活系统？

声音 28/09/2024

三个要点
✔️ 建立并出版了中文语障语料库。已发表的语音激活研究资源。
✔️ 利用 MDSC 进行了全面的实验分析。它还阐明了构音障碍语音激活系统面临的挑战。
✔️ 提出了构音障碍语音激活系统，该系统对可懂度差异具有鲁棒性，并且性能良好。

Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design
written by Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee
[Submitted on 14 Jun 2024]
Comments:to be published in Interspeech 2024
Subjects: Computation and Language (cs.CL)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

很高兴见到大家！

我是 AI-SCHILAR 的新作者小笠原。

本文介绍的就是这一点。

增强构音障碍语音唤醒：普通话构音障碍语音库发布与定制系统设计"。

是

正如我在本文开头所总结的要点一样，该项目的目的似乎是开发和出版一个听力障碍中文语音语料库，并发明一个语音激活系统。

究竟用的是什么方法呢？让我们和我一起一点一点地学习吧~！

我们将尽可能简明扼要地向您介绍这一主题，请您不要离开我们，直到最后。

研究摘要

例如，由于 Switchbot 和亚马逊的 Alexa 等智能家居技术的发展，语音控制设备已变得十分普遍。然而，有发音问题的发音障碍者却无法从中受益。

因此，在本研究中，我们创建并发布了中文发音障碍语料库，并利用 MDSC 对发音障碍者的语音激活进行了实验和分析。

结果表明，构音障碍者的语音因人而异，而且数据量有限。拟议的系统能在大约三分钟内适应说话者的语音，并且对可懂度的差异高度敏感，但还需要对严重构音障碍者进行进一步研究。

我会记住的

什么是构音障碍？

这是一种先天或后天因素导致的疾病，患者即使听得懂某种语言，也无法正确发音。后天因素包括中风和神经肌肉疾病，不是吗？

语言特点因人而异，但总的来说，语言清晰度降低，口语难以理解。这就大大增加了人际交流的难度。

什么是语音激活？

这是一种通过特定词语激活设备的技术，例如 "嘿 Siri "或 "OK！Google"。如果发音不正确，它就不起作用。

什么是 PER 和 WER？

这是一种常用的语音识别度量方法：PER 是音素错误率，因为它是以音素（发音的最小单位）为单位测量的；WER 也称为单词错误率，因为它是以单词为单位测量的。

你明白了吗？迄今为止的反思

只有三件事是重要的！

让我们坚持住

构音障碍是一种能理解发音但不能正确发音的疾病。
语音激活就像 Siri 用 "嘿 "激活一样！
市盈率和市净率通常用作估值指标。

只要牢记这三点，剩下的就没问题了！

什么是 MDSC？它是什么样的语料库？

在这项研究中，您开发并发布了一个针对汉语听力障碍的语音语料库。您难道不好奇这是怎么回事吗？

如果你不在乎，可以继续下一个话题。我要深入探讨一下，如果你感兴趣，请继续关注我。

目标

本语料库的目的是为语音激活系统的研究提供一个中国发音障碍者的语料库。由于该语料库仅用于研究语音激活系统，因此所记录的词语也与之相关。

坦率地说，它的用途太有限了，而且因为是中文，可能与我们的生活并不相关。但是，创建一个语料库来设计这个语音激活系统的想法是非常有帮助的。即使在日语中，也必须有人这样做，否则这一领域将永远无法发展。

特点和内容

该语料库包含约 10 小时的发音障碍语音和约 8 小时的非音节语音。这是一个相当庞大的数据集合--正如您所期望的那样，这是一个拥有大量说话者的中文语料库。

我想创建一个日语构音障碍语料库（最好是开放式的），但日语使用者比英语或汉语使用者少，而且虽然这可能不是一个好主意，但我觉得日本在残疾人的社会包容方面落后于其他国家。

现实情况是，正因为如此，很难吸引到研究对象。

我有点扯远了，但我会继续说下去。其中包括激活词（声控系统的关键）和其他命令词。总共包含约 360 个单词。

我们就从这里开始！关于实验

非常感谢大家阅读了我这篇冗长的基本解释。接下来，我将解释本文最有趣的部分--实验。

什么实验？

通过实验评估适合个人构音障碍的语音激活系统的性能。

实验装置

1: 数据集。

如前所述，本实验使用的是 MDSC。它将是一个语音激活系统研究的数据集，包含约 16 个小时的中文听障语音。

2: 主题

从 MDSC 中挑选

3: 评估指标。

PER 和 WER 将用于评估系统性能。

实验结果如何？

现在，我们将举行仪式，宣布实验结果！我们走吧

噗！我可以看到类似三个模型--但本文要讨论的是 SDD 图表上的黑色条形线。请注意这一点。

请看这就是实验结果。图画得很清楚，但我还是要解释几个要点。

SDD 模型的优越性：SDD 在所有说话者中得分最低。这是一个衡量错误率的指标，因此得分越低，模型越好。而且，该模型似乎能在大约三分钟内适应说话者的语音。
智能程度不同，改善率也不同：对于中等智能程度的说话者，SDD 模式的改善率最高。这表明，对于中等清晰度的说话者来说，说话者适应是一种有效的工具，但当然也存在挑战。也就是说，对于理解力最低的说话者，其提高率的增长要小于中等理解力说话者。
需要 SDD 模型：在 SID 图中，红条是经过训练的整个障碍语音。这在许多情况下也有改善，但效果有限，清晰度高的说话者的改善率更低。另一方面，经过单独调整的 SDD This 对所有说话者都有改善，这可能表明需要 SDD。

是的。我总结了这项研究最重要的三项成果。从这些成果中，我相信我们已经掌握了中国语障语料库的有效性和 SDD 系统的必要性。

论文摘要

这次是学习中文，所以与我们的生活无关。有些人可能会想："这和我们的生活有什么关系？但事实并非如此。如果你能在其他语言中做到这一点，那么在日语中也应该能得到同样的结果。说日语的人必然比说汉语的人少，我必须在他们中间找到有听力障碍的人，然后咨询他们是否可以成为研究对象。我是个学生，所以不能提供酬金，我也不确定他们是否会接受我的提议。但总得有人去做，否则这个领域就不会有发展。这就是我的意思。