赶上最新的AI论文

多扬声器语音识别的新浪潮:使用 DiCoW 和 DiariZen 的高精度系统的挑战

多扬声器语音识别的新浪潮:使用 DiCoW 和 DiariZen 的高精度系统的挑战

三个要点
✔️ 提出了一种结合 DiCoW 和 DiariZen 的多扬声器语音识别系统,并取得了很高的准确率
✔️ 整合了扬声器分离和 ASR,可在未知领域稳健工作,并赢得了挑战赛第二名
✔️ 通过使用 VAD 一起处理训练数据中的标签不匹配问题,提高了识别性能

BUT System for the MLC-SLM Challenge
written by Alexander PolokJiangyu HanDominik KlementSamuele CornellJan ČernockýLukáš Burget
(Submitted on 16 Jun 2025)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

摘要

本文提出了一种结合 DiCoW 和 DiariZen 两种模型的系统,以应对多语言和多讲者语音识别(ASR)的挑战。

DiCoW 基于 Whisper 模型,以逐帧说话人信息为条件进行语音识别。DiariZen 则是基于 Pyannote 的说话人日记化管道。

作者首先将这两种模型应用于预训练状态下的多语言数据,并测试了它们在未知领域的通用性。结果表明,DiariZen 的表现优于 Pyannote 基线模型。此外,还利用 MLC-SLM 挑战赛的数据对模型进行了微调,以提高识别准确率。最终,所提出的系统在挑战赛任务 2 中获得了第二名的好成绩,据报告,该系统对说话者多样性和数据不一致性表现出了很强的鲁棒性。

建议的方法

建议的方法由两个主要部分组成。

首先是 DiariZen,它将语音分割成多个语块,并对每个语块执行局部神经网络说话人分离(EEND)。在此获得的说话者嵌入信息将被聚类,以映射不同语块的说话者,完成整体的说话者分离。

第二种是 DiCoW,它将代表帧级扬声器活动的 STNO 掩码(沉默、目标扬声器、其他扬声器、重叠)的概率信息添加到 Whisper 架构中,并在每个变换器层对输入表示进行动态变换。这些变换被称为帧级日差依赖变换 (FDDT),可使模型以说话者为条件的方式进行学习。

这样,ASR 就能只利用说话人的概率信息,而不受说话人嵌入和预注册语音的影响。

实验

在实验中,首先评估了 DiariZen 和 Pyannote 在未知领域和微调后的扬声器分离性能。结果显示,微调后 DiariZen 的 DER(说话人分离错误率)为 12.7%,低于 Pyannote 的 16.4%。随后对 DiCoW 的语音识别性能进行了评估,结果显示预训练模型的 tcpWER(单词错误率)也明显高于基线。此外,经过微调后,该系统对许多语言的识别准确率低于 20%。

然而,训练数据中包含标签不匹配和不正确的无声段注释,导致在某些语言中表现不佳。为了解决这个问题,作者引入了一种方法,结合使用 VAD 模型来增强无声检测。这种方法在接近测试条件的开发数据上显示出识别性能的显著提高。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们