【愛犬も話したZero-shot Learning】AI音声クローンとリップシンキングの検証と解説
3つの要点
✔️ 未知の概念に既存の知識で推論して対処するゼロショット学習(Zero-shot Learning)の仕組み
✔️ 数秒の音声データで筆者と愛犬の声をクローン(複製)して、ネイティブスピーカーに変えた実証と考察
✔️ ゼロショット学習に関わる音声と画像の特徴点の可視化
XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
written by Edresson Casanova, Kelly Davis, Eren Gölge, Görkem Göknar, Iulian Gulea, Logan Hart, Aya Aljafari, Joshua Meyer, Reuben Morais, Samuel Olayemi, Julian Weber
[Submitted on 7 Jun 2024 (v1)]
Subjects: Audio and Speech Processing (eess.AS); Computation and Language (cs.CL); Sound (cs.SD)
Comments: Accepted at INTERSPEECH 2024LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
written by Jianzhu Guo, Dingyun Zhang, Xiaoqiang Liu, Zhizhou Zhong, Yuan Zhang, Pengfei Wan, Di Zhang
[Submitted on 3 Jul 2024 (v1)]
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
論文が扱うゼロショット学習(Zero-shot Learning)は、AIが活かされる多くの分野で、未知の状況(情報)に既存の学習知識を使って、適切な答えを導き出す技術のひとつになっています。
一般的に、この技術によってAIは、まったく知らないものにでも、他の学習知識(経験)から推論して、もっともらしく解決していく力を発揮していると示されています。ではどの程度、未知な状況に解決・対応できるのでしょうか?
この記事では、AIによる音声のクローン技術と、ディープフェイクと類似するリップシンキング(口パク)技術について、実際に検証しながら解説していきます。
愛犬の遠吠えからバイリンガルなクローン音声を作成
AIを使う音声クローン技術のマルチリンガルな世界
AIによる音声クローン技術では、数秒のサンプル音声から「声の特徴」を学習し、サンプルそっくりな声で文を読みあげます。
技術的に特筆すべき点はゼロショット学習で、学習データにない音声だろうと推論(推定)を重ね、自然に再現できることにつきます。愛犬の遠吠えまで声に変えられました。
そしてXTTSやVALL-E Xは、多言語に対応するので日本語から英語、その逆の変換も「ネイティブ並み」に読みあげます。
やり取りのスタイルにすら革命を起こしそうな勢いです。
では、論文に記載される技術の基本原理と、活用法をみていきます。
AIが行う特徴抽出の可視化
音声認識AIと画像認識AIが内部で行う「データの特徴抽出」とは何か? その一端をプログラム言語pythonでライブラリ、LibrosaとOpenCVを使い、可視化しました。
音声信号の特徴抽出
色の違いで表示されたメルスペクトログラムは、音声認識AIが感情やしゃべり方の違いを捉えるために役立っています。
メルスペクトログラムは、人間が耳で感じる周波数の感覚に基づいた変換を行うものです。音声の特徴が強調されやすく、これを前処理として使うことで、AIが音声データの感情や抑揚、声質などの微妙な違いを識別しやすくなります。
また、点線で表示されたピーク検出と類似する、オンセット強度は音声データの中で「音の始まり」がどのくらい強く現れるかを示す指標となります。
愛犬の遠吠えの特徴抽出
遠吠えを音声クローンして言葉を模倣したときの特徴抽出
上が犬の遠吠え、下が音声クローンによって人間の言葉を模倣したものです。両者はパッと見て、違いが確認できます。
ただ注目すべき点は、共通の横縞模様(フォルマント構造)があることです。低音域に見られる重なった周波数帯は、犬の遠吠えに特有のもの。それが両者にあり、音声クローンAIが「頑張って」人間の発声に近いパターンに変換できうることが、確認できました。
技術的には「言葉を話す犬」の再現に一歩近づけて、音声クローンAIの能力を垣間見られました。
画像の特徴抽出
AIモデルが行う画像データの特徴抽出は、これまでの輪郭や角、色などをアルゴリズム(手動の力技)で抽出する手法と根本的に違います。
一般に、AIモデルは大量のデータを用いて、特徴「そのもの」を学習し情報としています。画像のどの特徴が重要で、どのように捉えるか、それらを事前学習データにより、自動的に最適化し抽出します。
抽出の一端を可視化しました。
愛犬と筆者の画像の特徴抽出の可視化画像
LivePortraitでは、暗黙のキーポイント(シンプルに、顔の動きを制御するための隠れた座標)を画像や動画から捉えて、動きに重要な部位を自然なアニメーションに変えています。
上の可視化画像でも、目や口などにマークがついていますが、AIモデルが自動で「隠れた」特徴点まで捉えるという、ゼロショット学習の手法と似た技術で、よりリアルな動きに結びつけています。
アニメ風のポートレート画像を学習データに取り入れてあり、愛犬のリップモーション(口パク)動画は、少しアニメっぽく可愛らしい雰囲気になりました。
それっぽくするゼロショット学習の基本原理
大胆に例えて説明します。
AIが「犬」と「猫」の画像を学習している状態で、「未学習の動物(例えばキツネ)」の画像に対応するとき、AIはキツネを正確に識別できません。犬や猫の特徴から類推して、新しい動物だと判断する感じです。
AIは既に学んでいる情報をパズルのように組み合わせ、「この新しいものはどれに一番似ているか?」と判断します。
もし犬や猫に似ている部分が多ければ、「犬と猫の間のような動物」と判断します。しかし、違う部分がもっと多いと「新しい動物」と判断します。
「新しい動物」と判断したには、その動物が持っている特徴を犬や猫の特徴と比べ、「どちらに似ているか?」と類推していくことになります。
そして「犬っぽい」「猫っぽい」と判断して処理することは、各論文に関わるゼロショット学習の基本原理にマッチする考え方です。
愛犬の「目っぽい」「口っぽい」など、特徴抽出例を示す可視化画像
筆者の「目っぽい」「口っぽい」など、特徴抽出例を示す可視化画像
この「何々っぽい」と類推するためには、比較できる学習データが多いほど精度が高く、高度な能力を持つAIとなります。
もう一歩進むと?
AIは「これは、学習している情報を組み合わせた新しい動物だ」と確定しますが、名前を知っているわけではありません。そのため「とりあえず新しいパズルを解こう」という感じで、特徴を学習します。
すると、再び同じような動物(例えば別のキツネ)の画像に対応するとき、「これは以前に学んだ新しいパズルと似てる」と判断して、より効率的に処理できるようになります。
この繰り返しを行うことが、AIの進化と能力アップに結びつくと考えて、間違いではありません。
AIが学習した情報とは具体的に何?
AIが用いる特徴の記憶(学習データ)のお話です。
画像認識や音声認識で使う「学習済みの特徴」は一般に、ニューラルネットワークの重みとして保存されています。これらの重みとは、入力データを処理しつつ、あいまいな特徴を捉えるためのパラメータと呼べます。
学習済みの重み自体は、人間が直感的に「理解できる形式」ではありません。数学的な表現に変換されています。
具体的には、膨大な数の行列やベクトルの情報が記憶(保存)されていて、ニューラルネットワークがそれらを使って特徴抽出などの認識をしています。
学習した情報でどのように特徴を捉えている?
論文で示された内容は技法と動作事例の解説です。
現状では、認識や生成・合成の土台となっているAIのニューラルネットワークが、学習して保存したデータや特徴については、ブラックボックス状態です。
重みやパラメータがどうやって機能しているのか、数学的な説明はできますが、それらを直感的に理解するのは、難しいのが実情。例えるなら、人間の脳の神経網を見ても、どの神経が何をしているのか、全貌が不明なのと同じという具合です。
ただ、最近は「Explainable AI(XAI)」という分野が進み始めて、AIの判断過程を明らかにしようとする動きはあります。
しかし、完全にブラックボックスが解明されるのには、まだ時間がかかりそうです。
筆者の音声クローン(日本語)とリップシンキング検証結果
筆者の音声クローン(英語)とリップシンキング検証結果
まとめ
様々なAIが、見聞きしたことのない状況に対して、似たパターンから類推して結果を出力するのは、ある意味、ゼロから有を創る「一般化する力」と言えます。
過去のデータを元にはしても、単なる模倣(コピー)と異なるものです。
やや飛躍的な考えとなりますが、ゼロショット学習などで、これらAIの「一般化力」が高まれば、最終的にAGIやASIに到達する可能性が高く、期待と一抹の不安が交錯します。
ですが、以下のように愛犬は言っていますし、愛犬の動きは筆者が演じた動画をご覧いただければ滑稽で、未来は楽しそうだと思えてきませんか?
愛犬からのメッセージ
筆者がモーションアクターした結果
この記事に関するカテゴリー