多話者音声認識の新潮流！DiCoWとDiariZenによる高精度システムの挑戦

その他 2025年07月03日

3つの要点
✔️ DiCoWとDiariZenを組み合わせた多話者音声認識システムを提案し高精度を実現
✔️ 話者分離とASRを統合し、未知領域でも堅牢に動作し、チャレンジで2位を獲得
✔️ 学習データのラベル不一致に対応するため、VAD併用で認識性能を改善

BUT System for the MLC-SLM Challenge
written by　Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
(Submitted on 16 Jun 2025)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS)

code：

概要

本論文では、多言語かつ複数話者が混在する音声認識（ASR）の課題に対して、DiCoW と DiariZen という二つのモデルを組み合わせたシステムを提案。

DiCoWはWhisperモデルを基盤とし、フレーム単位の話者情報を条件として音声認識を行います。一方、DiariZenはPyannote上に構築された話者ダイアリゼーションのパイプラインです。

まず著者らは、両モデルを事前学習済みの状態で多言語データに適用し、未知領域での汎用性を検証しました。その結果、DiariZenはベースラインのPyannoteモデルを上回る性能を示しました。さらに、MLC-SLMチャレンジ用のデータでモデルをファインチューニングし、認識精度を向上させています。最終的に提案システムはチャレンジのタスク2で2位となり、話者の多様性やデータの不一致にも強い堅牢性を示したと報告されています。

提案手法

提案手法は、大きく二つの構成要素から成り立っています。

一つ目はDiariZenであり、音声を複数のチャンクに分割し、それぞれに対して局所的なニューラルネットワークによる話者分離（EEND）を実施。ここで得られた話者埋め込みをクラスタリングすることで、チャンク間で話者を対応付け、全体の話者分離を完成させます。

二つ目はDiCoWであり、Whisperアーキテクチャにフレームレベルの話者活動を表すSTNOマスク（沈黙、対象話者、他話者、重複）の確率情報を付加し、各Transformer層において入力表現を動的に変換します。この変換はFDDT（Frame-Level Diarization-Dependent Transformations）と呼ばれ、モデルが話者条件付きで学習する仕組みを実現。

これにより、話者の埋め込みや事前の登録音声に依存せず、確率的な話者情報のみを活用したASRが可能となります。

実験

実験では、まずDiariZenとPyannoteの話者分離性能を未知領域とファインチューニング後の双方で評価しました。結果として、DiariZenはファインチューニング後にDER（話者分離誤差率）が12.7%と、Pyannoteの16.4%を下回ることに。

続いて、DiCoWによる音声認識性能を評価し、事前学習済みモデルでもベースラインを大幅に上回るtcpWER（単語誤り率）を示しました。さらにファインチューニング後には、多くの言語でエラー率が20%を切る精度を達成。ただし、学習データにはラベル不一致や無音区間の誤注記が存在し、これが一部の言語での性能低下を招く要因となりました。

著者らはこの問題に対処するため、VADモデルを併用し、沈黙検出を強化するアプローチを導入。この手法により、テスト条件に近い開発データで認識性能が大きく改善されました。