[构音障碍严重程度的自动分类！通过实验引入 SALR，其性能甚至优于 Wav2vec2

肢体瘫痪者的语音识别功能 22/09/2024

三个要点
✔️ 使用 Transformer 模型的新型客观失语症严重程度评估方法
✔️ 说话者诊断潜在正则化 (SALR)
✔️ 准确率高达 70.48%，明显高于传统方法

Speaker-Independent Dysarthria Severity Classification using Self-Supervised Transformers and Multi-Task Learning

written by Lauren Stumpf,Balasundaram Kadirvelu,Sigourney Waibel,A. Aldo Faisal
[Submitted on 29 Feb 2024]
Comments: 17 pages, 2 tables, 4 main figures, 2 supplemental figures, prepared for journal submission
Subjects: Neurons and Cognition (q-bio.NC); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Machine Learning (cs.LG); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

很高兴见到大家！

我是 AI-SCHILAR 的新作者小笠原。

本文介绍的就是这一点。

利用自监督变压器和多任务学习进行与说话者无关的构音障碍严重程度分类"。

是

正如本节开头的要点所概述的，其目的似乎是对构音障碍的严重程度进行客观的自动评估。

究竟用的是什么方法呢？让我们和我一起一点一点地学习吧~！

我们将尽可能简明扼要地向您介绍这一主题，请您不要离开我们，直到最后。

研究摘要

构音障碍是一种语言肌肉控制能力受损的疾病，对患者的交流和生活质量有很大影响。这种疾病非常复杂，人为评估难免缺乏客观性。

本研究提出了一种基于转换器的框架，可自动评估原始语音数据的损伤严重程度。这使得评估结果比人类专家的评估结果更加客观。

我会记住的

什么是构音障碍？

这是一种先天或后天因素导致的疾病，患者即使听得懂某种语言，也无法正确发音。后天因素包括中风和神经肌肉疾病，不是吗？

语言特点因人而异，但总的来说，语言清晰度降低，口语难以理解。这就大大增加了人际交流的难度。

迄今为止，患者病情的严重程度一直由语言病理学家通过主观听觉评估来确定。然而，人们正在寻求更客观的评估方法。

什么是自我监督学习？

本文使用的是 wav2vec2.0 模型。该模型的特点是从大量无监督数据中自动学习有用部分的方法。在难以进行大规模监督学习的语音领域，该模型尤其有用。

什么是变压器？

处理模型中使用了注意力机制，该机制主要在自然语言处理和语音识别领域取得了卓越的成果。它能够捕捉整个输入的上下文，因此被认为适用于语音变化建模，如发音障碍。

你明白了吗？迄今为止的反思

只有三件事是重要的！

让我们坚持住

构音障碍是一种发音不正确的疾病。
自我监督学习就像是非常大的无监督学习。
变压器擅长模拟微小变化

只要牢记这三点，剩下的就没问题了！

下一次，我们来看看实验。

我们就从这里开始！关于实验

非常感谢大家阅读了我这篇冗长的基本解释。接下来，我将解释本文最有趣的部分--实验。

实验装置

1: 数据集

这项研究使用的是UA-Speech。这是一个在构音障碍研究中被广泛使用的英语语音语料库，令我们惊讶的是，在这个语料库中有 15 位残疾人的语音。在日语中没有免费的构音障碍语音语料库，因此大量的英语发音者是非常了不起的。我希望能有一个适用于日语的通用语料库...

2: 型号

wav2vec2.0 模型针对构音障碍严重程度分类任务进行了微调。该模型已在960小时的数据集上进行了预训练！这无法在单个开发基础上复制......

好吧，还有其他准备项目，但它们都非常深入和困难，所以我在本文中就省略了。

3: 目标。

目的是开发一种能自动对构音障碍的严重程度进行分类的系统。本研究采用准确度和 F1 分数来评估系统性能。

实验结果如何？

是的。我们现在来看看实验结果！论文中有一个总结实验结果的表格，但它很难一目了然，所以我将以书面形式进行简要说明。

因此，本文提出的模型在构音障碍严重程度分类任务中的分类准确率比其他模型有了显著提高。它的表现似乎比微调后的 wav2vec2 更好，而且随着 F1 分数的提高，它也表现出了最好的性能。

研究还发现，该模型在划分极度构音障碍的严重程度等级方面表现出色。例如，该模型在极低和极高的分类方面表现出色。不过，在中级分类方面似乎仍存在挑战。这被认为是由于分类数据的缺乏以及不同等级之间缺乏明确的标准。

论文摘要

嗯。这是一个无法形容的结果。我认为，在对残疾进行分类时，极端情况下，医生可以不犯错误，不迷失方向。嗯，这是一个主观判断...即使是经验丰富的医生也会在中级分类中迷失方向。我想，如果这个问题得到解决，对医生会有帮助，而病人也能核对客观数据，这将有助于双方做出满意的决定。

不过，让人工智能来进行疾病分类不失为一种好方法。除构音障碍外，这种方法还可适用于其他疾病，而图像识别将更加有用！