
多扬声器语音识别的新浪潮:使用 DiCoW 和 DiariZen 的高精度系统的挑战
三个要点
✔️ 提出了一种结合 DiCoW 和 DiariZen 的多扬声器语音识别系统,并取得了很高的准确率
✔️ 整合了扬声器分离和 ASR,可在未知领域稳健工作,并赢得了挑战赛第二名
✔️ 通过使用 VAD 一起处理训练数据中的标签不匹配问题,提高了识别性能
BUT System for the MLC-SLM Challenge
written by Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
(Submitted on 16 Jun 2025)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS)
code:
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
摘要
本文提出了一种结合 DiCoW 和 DiariZen 两种模型的系统,以应对多语言和多讲者语音识别(ASR)的挑战。
DiCoW 基于 Whisper 模型,以逐帧说话人信息为条件进行语音识别。DiariZen 则是基于 Pyannote 的说话人日记化管道。
作者首先将这两种模型应用于预训练状态下的多语言数据,并测试了它们在未知领域的通用性。结果表明,DiariZen 的表现优于 Pyannote 基线模型。此外,还利用 MLC-SLM 挑战赛的数据对模型进行了微调,以提高识别准确率。最终,所提出的系统在挑战赛任务 2 中获得了第二名的好成绩,据报告,该系统对说话者多样性和数据不一致性表现出了很强的鲁棒性。
建议的方法
建议的方法由两个主要部分组成。
首先是 DiariZen,它将语音分割成多个语块,并对每个语块执行局部神经网络说话人分离(EEND)。在此获得的说话者嵌入信息将被聚类,以映射不同语块的说话者,完成整体的说话者分离。
第二种是 DiCoW,它将代表帧级扬声器活动的 STNO 掩码(沉默、目标扬声器、其他扬声器、重叠)的概率信息添加到 Whisper 架构中,并在每个变换器层对输入表示进行动态变换。这些变换被称为帧级日差依赖变换 (FDDT),可使模型以说话者为条件的方式进行学习。
这样,ASR 就能只利用说话人的概率信息,而不受说话人嵌入和预注册语音的影响。
实验
在实验中,首先评估了 DiariZen 和 Pyannote 在未知领域和微调后的扬声器分离性能。结果显示,微调后 DiariZen 的 DER(说话人分离错误率)为 12.7%,低于 Pyannote 的 16.4%。随后对 DiCoW 的语音识别性能进行了评估,结果显示预训练模型的 tcpWER(单词错误率)也明显高于基线。此外,经过微调后,该系统对许多语言的识别准确率低于 20%。
然而,训练数据中包含标签不匹配和不正确的无声段注释,导致在某些语言中表现不佳。为了解决这个问题,作者引入了一种方法,结合使用 VAD 模型来增强无声检测。这种方法在接近测试条件的开发数据上显示出识别性能的显著提高。
与本文相关的类别