
多話者音声認識の新潮流!DiCoWとDiariZenによる高精度システムの挑戦
3つの要点
✔️ DiCoWとDiariZenを組み合わせた多話者音声認識システムを提案し高精度を実現
✔️ 話者分離とASRを統合し、未知領域でも堅牢に動作し、チャレンジで2位を獲得
✔️ 学習データのラベル不一致に対応するため、VAD併用で認識性能を改善
BUT System for the MLC-SLM Challenge
written by Alexander Polok, Jiangyu Han, Dominik Klement, Samuele Cornell, Jan Černocký, Lukáš Burget
(Submitted on 16 Jun 2025)
Comments: Published on arxiv.
Subjects: Audio and Speech Processing (eess.AS)
code:
概要
本論文では、多言語かつ複数話者が混在する音声認識(ASR)の課題に対して、DiCoW と DiariZen という二つのモデルを組み合わせたシステムを提案。
DiCoWはWhisperモデルを基盤とし、フレーム単位の話者情報を条件として音声認識を行います。一方、DiariZenはPyannote上に構築された話者ダイアリゼーションのパイプラインです。
まず著者らは、両モデルを事前学習済みの状態で多言語データに適用し、未知領域での汎用性を検証しました。その結果、DiariZenはベースラインのPyannoteモデルを上回る性能を示しました。さらに、MLC-SLMチャレンジ用のデータでモデルをファインチューニングし、認識精度を向上させています。最終的に提案システムはチャレンジのタスク2で2位となり、話者の多様性やデータの不一致にも強い堅牢性を示したと報告されています。
提案手法
提案手法は、大きく二つの構成要素から成り立っています。
一つ目はDiariZenであり、音声を複数のチャンクに分割し、それぞれに対して局所的なニューラルネットワークによる話者分離(EEND)を実施。ここで得られた話者埋め込みをクラスタリングすることで、チャンク間で話者を対応付け、全体の話者分離を完成させます。
二つ目はDiCoWであり、Whisperアーキテクチャにフレームレベルの話者活動を表すSTNOマスク(沈黙、対象話者、他話者、重複)の確率情報を付加し、各Transformer層において入力表現を動的に変換します。この変換はFDDT(Frame-Level Diarization-Dependent Transformations)と呼ばれ、モデルが話者条件付きで学習する仕組みを実現。
これにより、話者の埋め込みや事前の登録音声に依存せず、確率的な話者情報のみを活用したASRが可能となります。
実験
実験では、まずDiariZenとPyannoteの話者分離性能を未知領域とファインチューニング後の双方で評価しました。結果として、DiariZenはファインチューニング後にDER(話者分離誤差率)が12.7%と、Pyannoteの16.4%を下回ることに。
続いて、DiCoWによる音声認識性能を評価し、事前学習済みモデルでもベースラインを大幅に上回るtcpWER(単語誤り率)を示しました。さらにファインチューニング後には、多くの言語でエラー率が20%を切る精度を達成。ただし、学習データにはラベル不一致や無音区間の誤注記が存在し、これが一部の言語での性能低下を招く要因となりました。
著者らはこの問題に対処するため、VADモデルを併用し、沈黙検出を強化するアプローチを導入。この手法により、テスト条件に近い開発データで認識性能が大きく改善されました。
この記事に関するカテゴリー