多扬声器语音识别的新浪潮：使用 DiCoW 和 DiariZen 的高精度系统的挑战

03/07/2025

三个要点
✔️ 提出了一种结合 DiCoW 和 DiariZen 的多扬声器语音识别系统，并取得了很高的准确率
✔️ 整合了扬声器分离和 ASR，可在未知领域稳健工作，并赢得了挑战赛第二名
✔️ 通过使用 VAD 一起处理训练数据中的标签不匹配问题，提高了识别性能

BUT System for the MLC-SLM Challenge
written by　Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
(Submitted on 16 Jun 2025)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

摘要

本文提出了一种结合 DiCoW 和 DiariZen 两种模型的系统，以应对多语言和多讲者语音识别（ASR）的挑战。

DiCoW 基于 Whisper 模型，以逐帧说话人信息为条件进行语音识别。DiariZen 则是基于 Pyannote 的说话人日记化管道。

作者首先将这两种模型应用于预训练状态下的多语言数据，并测试了它们在未知领域的通用性。结果表明，DiariZen 的表现优于 Pyannote 基线模型。此外，还利用 MLC-SLM 挑战赛的数据对模型进行了微调，以提高识别准确率。最终，所提出的系统在挑战赛任务 2 中获得了第二名的好成绩，据报告，该系统对说话者多样性和数据不一致性表现出了很强的鲁棒性。

建议的方法

建议的方法由两个主要部分组成。

首先是 DiariZen，它将语音分割成多个语块，并对每个语块执行局部神经网络说话人分离（EEND）。在此获得的说话者嵌入信息将被聚类，以映射不同语块的说话者，完成整体的说话者分离。

第二种是 DiCoW，它将代表帧级扬声器活动的 STNO 掩码（沉默、目标扬声器、其他扬声器、重叠）的概率信息添加到 Whisper 架构中，并在每个变换器层对输入表示进行动态变换。这些变换被称为帧级日差依赖变换 (FDDT)，可使模型以说话者为条件的方式进行学习。

这样，ASR 就能只利用说话人的概率信息，而不受说话人嵌入和预注册语音的影响。

实验

在实验中，首先评估了 DiariZen 和 Pyannote 在未知领域和微调后的扬声器分离性能。结果显示，微调后 DiariZen 的 DER（说话人分离错误率）为 12.7%，低于 Pyannote 的 16.4%。随后对 DiCoW 的语音识别性能进行了评估，结果显示预训练模型的 tcpWER（单词错误率）也明显高于基线。此外，经过微调后，该系统对许多语言的识别准确率低于 20%。

然而，训练数据中包含标签不匹配和不正确的无声段注释，导致在某些语言中表现不佳。为了解决这个问题，作者引入了一种方法，结合使用 VAD 模型来增强无声检测。这种方法在接近测试条件的开发数据上显示出识别性能的显著提高。