TV 録画から自動構築した音声コーパス 『LaboroTVSpeech』を公開
3つの要点
✔️ 日本語音声コーパスとしては最大規模の約2,000時間のデータ
✔️ TV番組に含まれる音声と字幕データから、音声コーパスを自動構築するシステムを開発
✔️ 既存の音声コーパスより優れた誤認識率を達成し、商用の音声認識APIにも匹敵する精度を確認
AI-SCHOLARからのワンポイント解説
昨今の機械学習において、データセットの準備は避けては通れない大きな課題となっています。人手で時間をかけて作成することも多いデータセットですが、自動で作成することができれば、それほど嬉しいことはありません。
そのような中で今回紹介するのは、株式会社Laboro.AIの独自システムを用いて作成した音声認識大規模データセットの無償公開についてです。
概要
Laboro.AIは、 当社の研究開発として、TV録画から長時間音声と字幕テキストを抽出して音声コーパスを自動構築する独自システムを用い、約2,000時間に及ぶ音声データから構築した日本語音声コーパス『LaboroTVSpeech(ラボロティービースピーチ)』を開発し、学術研究用に無償公開いたしました。 こちらのコラムでは、その概要についてご紹介いたします。
背景 − これまでの音声認識モデルと音声コーパス
一般的に音声認識モデルの性能は、その学習データの量に大きく左右され、高品質な音声認識システムを構築するためには大規模な音声コーパスが必要とされています。そのため、英語モデルの開発の場合には、商用目的では数千〜数万時間を超える音声データが用いられることもあり、研究目的でもSwitchBoard-Fisherデータセット(約2,000時間)やLibriSpeech(約960時間)などの大規模な音声コーパスが公開されています。
一方、日本語版の音声コーパスについては、研究用として代表的な日本語話し言葉コーパス(CSJ)で約600時間、新聞記事読み上げ音声コーパス(JNAS)で約90時間など、英語版と比較すると十分なデータ量に基づく音声コーパスが存在しているとは必ずしも言えないのが現状です。
ここで注目すべきは日本語であることです。現在ほとんどの研究は英語を主軸に研究されており、日本語でかつ大規模というのは皆さんが思っている以上に有益なんです。また、言語を用いたサービスにおいても日本語のデータセットが増えることは将来的に私たち、日本人にとってはかなり価値をもたらします。
この背景としては、音声コーパスの構築に際して書き起こしや録音作業など、人手による手間やコストがかかることが理由として挙げられます。その対応として、これまで人手の作業を伴わず自動的にデータ収集を行う手法が模索されてきました。その一つの方法として挙げられるのが、テレビ放送を用いた音声コーパスの自動構築です。多くのテレビ番組には字幕情報が付与されているため、音声と字幕のテキスト情報を時間的に紐付けることで、コーパスを自動構築できる可能性が示されてきました。
しかしながら、字幕は視聴者にとっての読みやすさを優先して作成されているため、必ずしもテレビ音声の正確な書き起こしにはなっていません。そのため、音声コーパス構築の自動化を行うためには、以下をはじめとする点に留意する必要があり、その実現ハードルは高いのが実際です。
- 字幕の表示時間と実際に音声が発生される時間にはズレがあり、特にニュースなどの生放送番組では音声が発せられてから字幕が表示されるまで10秒以上の遅れを伴う場合がある。
- コマーシャルなど、全ての音声に字幕があるわけではなく、また字幕が実際の発話とは異なる形で整形されたり短縮されたりすることがあり、忠実な書き起こしとは限らない。
- バラエティ番組などでは発話の一部が字幕ではなく,いわゆるテロップとして映像上に付与される場合があるが、テロップはテキストとして情報を取得できないため、データとして取得される字幕テキスト上では複数の単語や文章が不規則に削除されているような状態となる。
LaboroTVSpeechについて
今般当社で構築した音声コーパスLaboroTVSpeechは、B-CASカードによるアクセス制限がないワンセグ放送を利用し、2020年2月〜9月にかけて放送された、12ジャンル(デジタル放送規格の番組種別)計9,142番組のテレビ番組の録画データを用いており、2,049時間に及ぶ音声データから構成された大規模音声コーパスです。当社では、LaboroTVSpeechをアカデミア領域でのAI技術研究に広く活用いただくことを目的に、学術研究用に無償で公開することといたしました。
LaboroTVSpeechを構成する番組ジャンルと音声の長さ
LaboroTVSpeechは、当社が独自開発したシステムにより構築しています。具体的には、テレビ番組の長時間の音声データと、その不完全な書き起こしである字幕データの時間的な対応関係を抽出する手法である準教師付きデコーディング(lightly-supervised decoding)と呼ばれる手法をベースとしています。これにより、本来であればテレビ番組のデータから音声と字幕がセットになって抽出されるべきところ、先のような何らかの問題で対応した情報として取得できなかった場合に、準教師付デコーディングによる音声と字幕の対応関係の抽出を繰り返し行うことで、一度対応が取れなかった区間からも可能な限りデータ抽出を行うう仕組みを採用しています。
なお、LaboroTVSpeechについては、本年12月2日(水)・3日(木)に開催の(一社)情報処理学会 第246回自然言語処理・第134回音声言語情報処理合同研究発表会にて報告いたしました。 予稿「テレビ録画とその字幕を利用した大規模日本語音声コーパス の構築 」はこちらからご覧いただけます。
LaboroTVSpeech比較実験について
LaboroTVSpeechを用いたモデルの音声認識の性能を確認するため、日本語のTEDxを用いて構築した独自の音声認識システム評価用データセット※を用意した上で、従来の日本語音声コーパスCSJで学習されたモデル及び、国内外の主要なクラウド音声認識APIとの比較実験を行いました。
LaboroTVSpeechを使用したモデルに関する実験では、音声認識のツールキットとして、従来型のDNN-HMMハイブリッド方式を採用するKaldiと最先端のEnd-to-End方式を採用するESPnetの2種類を用いました。
その結果、ESPnetを用いた場合で、誤り認識率13.0%※を達成し、当社開発モデルが従来の研究用日本語音声コーパスで構築したモデルや、国内外の主要なクラウド音声認識APIを凌ぐ誤認識率を実現しました。
※ Youtube上のプレイリスト「TEDx talks in Jpanaese」に含まれる動画から音声と字幕データを取得したもの
※ https://github.com/espnet/espnet/tree/master/egs2/laborotv/asr1
日本語TEDコーパスに対する誤認識率(CER:Character Error Rate)の比較(※)
※ クラウド音声認識API の評価は、全てデフォルトの音響モデル及び言語モデルを用いて実施しています。上記の結果は、実環境での音声認識システムの性能とは異なる場合があります。
※ LaboroTVSpeechを用いた実験においては、言語モデルはLaboroTVSpeechに含まれる書き起こしとOSCARコーパスで学習した言語モデルを使用しています。実験条件の詳細は 第246回自然言語処理・第134回音声言語情報処理合同研究発表会の予稿「テレビ録画とその字幕を利用した大規模日本語音声コーパス の構築 」をご覧下さい。
今回の大規模データセットですでに効果が検証されていることは、使う理由としては十分ですね。
LaboroTVSpeechの今後の可能性
LaboroTVSpeechの利点は、テレビ放送をデータソースとしていることからデータ量を絶えず増加させることが可能な点にあります。当社ではLaboroTVSpeechのデータ量を増強するために定期的なアップデートを実施し、公開することで、国内におけるAI音声認識分野の技術力向上に寄与してまいります。
LaboroTVSpeechのご利用について
LaboroTVSpeechに含まれる音声及びテキストデータの権利は、元のテレビ放送の著作権者に帰属していますが、著作権法30条の4に基づき、情報解析等の用途のために、大学等の公的学術研究機関における非商用利用を対象に無償で公開いたします。ただし、元のテレビ番組の音声を再構成し鑑賞する事を防ぐために、発話単位でランダムに並び替えられており、かつ番組名や放送局等の付加情報は含まれておりません。
この記事を読んで利用したい方もいると思いますが、利用したい人は必ずこの下を読んでください。
配布対象
無償配布の対象としては、下記のような機関を想定しています。
●国立大学、公立大学、私立大学、高等専門学校
●国立研究開発法人(産業技術総合研究所、情報通信研究機構、理化学研究所、等)
●地方自治体等が所管する研究機関
●その他公的な性質を持つ研究機関(公益法人等)
ただし、上記に該当する機関であっても、営利企業等からの提供された資金で運営されているプロジェクトや、無償配布対象外の機関との共同研究プロジェクトでの利用は、無償配布の対象外となりますのでご注意ください。
配布の流れ
ご利用にあたっては、こちらのお問い合わせフォームよりご連絡ください。その際、LaboroTVSpeechの無償利用の申し込みである事を明記いただいた上で、下記の点を記載ください。
●所属機関
●申込担当者氏名・所属部署・役職・メールアドレス
●(申請者が学生等の場合)申込責任者氏名・所属部署・役職・メールアドレス
申込書を電子契約サービスであるクラウドサインを通じて、指定のメールアドレスに送付させていただきますので、必要事項を記入の上、申し込みをお願いします。弊社側で申込書を審査した上で、申込書に記載のメールアドレスにコーパスをダウンロードするURLを記載したメールをお送りいたします。
なお、申込書の名義は、原則として教員や職員の方でお願いしております。学生等の方からの申込の場合は、申込書の記入は学生の方でも結構ですが、申込者の欄には教員の名前を記入頂き、教員の方のメールアドレスに申込書の承認の依頼をお送りさせて頂きます。
配布には、フォームより問い合わせをいただいてから、3週間程度の時間がかかりますことをご了承ください。
営利企業での使用について
営利企業における研究開発用途や商用目的での利用をご希望の場合は、同じくこちらのお問い合わせフォームからご相談ください。
学習スクリプトの公開
John Hopkins大学が開発する音声認識ツールキットであるKaldiを用いて、LaboroTVSpeech音声認識モデルを学習するためのスクリプトをgithubページにて公開しております。
また、ESPnetを用いて音声認識モデルを学習するためのスクリプトは、ESPnetの公式レポジトリのレシピを参照ください。