赶上最新的AI论文

一项极具挑战性的分类任务!使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

一项极具挑战性的分类任务!使用 WHFEMD 算法准确、高效地捕捉和分类发音障碍的特征

肢体瘫痪者的语音识别功能

三个要点
✔️ 针对构音障碍提出了新的特征提取算法(WHFEMD)
✔️ 对构音障碍特有的口齿不清和不稳定特征具有抵抗力

✔️ 与以前的算法相比,提高了构音障碍严重程度分类的准确性

Enhancing dysarthria speech feature representation with empirical mode decomposition and Walsh-Hadamard transform
written by Ting Zhu, Shufei Duan, Camille Dingam, Huizhi Liang, Wei Zhang
(Submitted on 30 Dec 2023)
Comments: Published on arxiv.

Subjects: Audio and Speech Processing (eess.AS); Artificial Intelligence (cs.AI); Signal Processing (eess.SP)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

为了准确、高效地捕捉语言障碍的特征...

刚读到这个!论文超级摘要!

在当今世界,通过语音控制智能手机和智能电器等任何设备来快速、轻松地处理家务和工作确实非常方便。

这种便利得益于人工智能的发展,它大大提高了语音识别率。现在,你知道构音障碍是什么吗?好吧,如果你正在阅读这篇文章,你可能对它有一定程度的了解,但对于那些对它一无所知的人来说,这里有一个小小的解释。

构音障碍是一种疾病,患者能理解语言,但由于神经系统异常而无法正确发音。这种疾病最有名的例子是脑瘫患者,如渐冻症患者,但也有不是由鼻子或其他因素引起的先天性构音障碍。

虽然不局限于当代,但我认为语言信息在与他人交流时极为重要。然而,虽然构音障碍患者有自己的创造力,但他们中的许多人却无法顺利地与他人沟通,难以与他人交流

在本文中,我们将介绍一篇论文,试图为有这种构音障碍的人提供帮助。

正如我在开头所说,语音操作电子设备非常方便,即使不擅长使用机器的人也能轻松操作,所以我觉得这是一项真正方便用户的技术。然而,有嗓音障碍的听障人士却享受不到这种便利

这是因为现有的系统是为正常人使用而设计的,并没有采用能准确处理阅读障碍语音的技术

因此,本研究重点关注发音不清和不稳定的语音特征,并提出了一种有效的捕捉方法。

更进一步说,该项目旨在准确捕捉发音障碍者复杂的语音特征,并利用这些特征对发音障碍的严重程度进行分类,然后用于医学诊断和治疗规划

本文提出的算法称为 WHFEMD。与传统方法相比,该算法能更准确地对构音障碍的严重程度进行分类

以往的研究通常使用 MFCC 和 LPC 等声学特征来分析听障语音,但这些方法无法充分捕捉其语音特征。本研究中的算法能够准确捕捉其复杂的语音特征,从而提高了分类的准确性

现在简要介绍一下论文内容。到目前为止,严重程度的分类一直由医生和语言病理学家完成,因为传统方法缺乏准确性。然而,人的判断是主观的,缺乏客观性,最重要的是,做出判断的人必须承担相当大的负担

您是否对今天的主菜 "WHFEMD "感到好奇,它的算法和结果究竟如何?

在下一节中,我们将进行更深入的讲解!如果您感兴趣,请跟我们一起看完。

WHFEMD 的结构是什么?

在。这是拟议算法的概念图!里面全是我不认识的缩写词...瓦卡兰

别担心,我会逐一解释清楚!

音频首先要经过FFT,这是一种称为快速傅里叶变换的信号处理,它将音频信号转换到频域

接下来是 EMD,即经验模式分解,将信号分解为多个固有模式函数(IMF)。这样就能捕捉到信号中不透明和不稳定的特征

用一种非常简单的方式来解释 IMF,就是将复杂的信号分解成一系列简单的波形打个音乐上的比方,这就好比把管弦乐队分解成一个个乐器单元。

FWHT 是一种称为快速沃尔什-阿达玛变换(Fast Walsh-Adamar Transform)的过程,但其理论相当复杂,因此只需记住它在本例中也用于特征提取即可

一旦完成特征提取,就会输出输入语音的标签(症状程度)。用于构音障碍分类任务时,输入语音会输出标签(症状程度)

接下来,让我们看看该方法的绩效评估!

....

我们使用UAspeech 和 TORGO 这两个语障语料库对该方法进行了评估。

两者都是著名的语料库,因此,如果您对这一发音障碍领域感兴趣,就应该记住它们--UA 易于用于研究,因为它根据严重程度对说话者进行了分类,而且数据量非常完美,因为它包含了多次朗读单词的语音记录。相比之下,TORGO 每个说话者的读出次数较少,而且录音质量不佳,语音嘈杂

这是不可避免的,因为它们的制作年代不同

因此,我们将其性能与最先进的分类任务进行了比较。结果表明,所提出的方法与最先进的方法性能相当

我认为,这种表现得益于对发音障碍的具体特征的关注,以及选择了与之相匹配的机制

研究人员也有自己的配色方案......

现在,我们已经研究了构音障碍的分类任务方法。在我开始撰写这篇论文的半年时间里,我阅读了十几篇论文,正如我所说的,在构音障碍领域,有很多关于分类任务的研究

现场就这么需要这项技术吗?就我个人而言,我希望看到语音识别技术取得更多进展

即使是在同一个分类任务中,每个研究人员都有自己的色彩,如果仅仅以成绩来评判,那就太浪费了

我读到的一些论文对当今研究分类任务的方式是一个打击。

此外,还应密切关注语言障碍领域未来的研究趋势!

本期就到这里吧?下期文章再见~。

与女作家小笠原聊聊天

我们正在寻找有兴趣开展联合研究的公司和研究生!

他的专长是语音识别(实验系统),尤其是针对肢体障碍者

这方面的资源有限,因此单独工作总是有限的

谁愿意利用最新技术共同解决社会问题?

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们