【AIのカンブリア大爆発】有用なAIクリエータを見出して活かす時代のポイント

Video Generation 2024年03月18日

3つの要点
✔️ 生成AIを使った「踊る」「歌う」「語る」プロモーション動画制作の実例
✔️ 音声生成AIで愛犬の咆哮を英語で語らせる試行と再現度の検証
✔️ AI未使用動画との閲覧数(PV)比較と有効性の調査

Prototype and discussion of singing and dancing videos using AI technology
written by Takahiro Yonemura
(Submitted on 5 Nov 2022)
Subjects: Motion & Dance

論文の原文は、以下よりお読みいただけます。（右上のボタンを押すと拡大できます。）
本論文の掲載に当たり、掲載元のNICOGRAPH様より掲載許可を頂いております。

はじめに

論文発表以降の各種AIの誕生は、生命が一気に多様化したカンブリア大爆発に似ていると、筆者は感じています。それら各種AIを論文では「AIクリエータ」と定義し、活用事例が明示されました。そして、AIクリエータと協調して仕上げたプロモーション動画(A)は、協調していないプロモーション動画(B)の約19倍の視聴回数が得られ、活用の是非が論じられました。以下の表にある動画Aは、動画Cから商品のプロモーション部分を省いた純粋なエンタメ動画です。

PV比較

この記事では「AIクリエータ」の創造性と、制作に関わる実例を探ります。AI技術の進化は、アイディアという無形物を現実の創出物へ変換する際に、活かせる有用なスキルをユーザにもたらしました。

手書きイラストがAIにより3D化される表現 — 2Dの画像のAIによる3DCG化芸術科学会誌 DiVA55号 P.16

太古のカンブリア大爆発が生命の多様性を豊かにしたように、AIクリエータが栄える時代では、私たちユーザの知識と創造性が拡張され、夢と現実の垣根が低くなってきました。以下に、AIクリエータとの協調とその能力、活用事例についてまとめます。

「合成」ではなく「生成」と呼ばれるAI

音や音楽、画像や文字など各ジャンルのAIは、一般に生成AIと呼ばれます。合成AIではなく、生成AIと呼ぶ点がポイントです。生成AIは学習したリソース（素材）を元に、ゼロからの生成が行えます。そのため、合成物と似て非なる生成されたもの（出力結果）は、いったい誰の権利物になるのでしょう？　生成AIが出力したものの商業利用にあたって「倫理的、法的、社会的課題（ELSI）」の研究についての記載はありますが、今なおこれら課題は解決に至っていません。

筆者近影を生成AIによって3DCG化 — 筆者近影を「筆者が」生成AIで3DCG化 TRIPO3D https://www.tripo3d.ai/

一方で、技術方面の課題も示されました。

創作面におき，人間とのチーム編成は既に可能だったと本稿より断じる．ただしAIの微調整に，まだ人間が要るとの条件付きだ．

こちらは日進月歩の勢いで進化する生成AIの能力によって、条件が緩和されたり消えたりと遠くない日に、解決するのは間違いありません。

創作用リソースとAI クリエータの補足

論文で示された動画構成用のリソースのうち現在、人間が生成AIにテキストの指示（プロンプト）を入力すれば、すぐに用意できるものがあります。必要なリソースを生成するプロンプトを考えるだけで、すぐ用意できる環境に進化してきました。

創作用（動画構成用）リソースについて

リソースのなかでも、ひらめきの要素が大きいため、実用化は難しいとされていた音楽の生成（１）は「Suno」などの音楽生成AIが実用レベルに達しました。アバター（４）を用意するには、著者近影を3DCG化したような3DCG生成AIが、しのぎを削る状態で公開されています。歌詞（２）は音楽生成AIのいち機能で代用したり、対話型生成AIに考案してもらったりして用意できます。（５）で示された背景（画像）は、多くの画像生成AI（DALL E3 など）が担えます。

アナログな人間が準備したリソースを，AIクリエータは解して活用する必要がある．筆者が作成したリソースを以下に示す．

(1) 音楽[5] : 44KHz,wav形式ファイル (2) 日本語の歌詞 (3)愛犬の吠え声: 44Khz, 3Secondのwav形式ファイル) (4) アバター(VRM形式) (5) 権利を有す写真（書影，ペーパークラフトモデル[6]，背景）

[5] A-Rumenoy, Scobey's Song (Extended Version) [Songs], ISRC SE-6HN-22-84796, Provided by Amuseio AB., Apr 2022.
[6] 米村貴裕,古川耕平, ソフトウェア「紙龍」で作るペーパークラフト, NICOGRAPH 2012, pp.115-118, 2012.

ただ留意すべき、デメリットがあります。商業利用が不可の生成AIで用意したリソースは、アレンジを加えても原則、個人での利用に限られる点です。

反面のメリットは、対話型生成AIの一般化によって、人間のクリエータが専門的なプロンプトを知らなくても、日本語で必要な内容を説明すれば、必要なリソースを生成できる創作環境ができた点になるでしょう。

AIクリエータ（制作チーム）について

創作に関わるAIクリエータの補足です。音声合成（２）は現在、より高性能な音声生成AIが多く公開され（VALL-E-X など）、ディープフェイクの制作などが問題化しています。同ジャンルの音声生成AI（Coque.ai)では、モデルにする声の教師なしデータとテキストを入力するだけで、声色をとどめた複数の言語に翻訳した音声を生成します。AI歌唱ソフトウェア（３）は、音楽生成AIのいち機能として統合されたものもあります。同じく（４）の翻訳に関しては、ChatGPTなどの対話型生成AIが、ネイティブレベルの翻訳作業まで行える環境になりました。独自性が失われるデメリットはありますが、人間のクリエータは生成AIをあれこれ使い分ける必要が減って、創作工程をシンプルにできるメリットもあります。

制作時に商利用が認められた以下，AIクリエータを制作チームとし，創作用リソースへクリエイティブな作業を行う．

(1) Charamin Studio (株式会社AHS) : 楽曲を分析し，AIによるアバターのモーション，カメラワーク生成ソフトウェア　(2) NarikiriVC ( NON906氏制作,2018-2021年) 音声素材を機械学習し，テキストからの音声合成を行うソフトウェア．素材音声以外(ラベルデータなど)不要　 (3) CeVIO Pro [7] : AI歌唱ソフトウェア　(4) DeepL ( DeepL SE ) : AI利用の翻訳

音声生成AIで音を喋らせる試行

音声「合成」は、1980年代に実現しています。オペレータ数個が発する波形を合成して、声の波形に似せて出力する機械的な方式でした。しかしこの方式では「愛犬の咆哮」（音）を話す声にはできません。似せる波形が存在しない（犬は言葉が話せない）からです。

一方の音声「生成」によって、話したり歌ったりする生成AIは知的な方式です。話声を識別して「声」の情報を抽出し、周波数成分や特性を繰り返し、解析します。それを声紋の数値データとして生成時に参照します。ですが、最新の音声生成AIでも引用部分のような、システム自体の理由から音を明瞭な「話声」として出力する場合、不安定な声だったり学習時にエラーとなったりするので、人間による調整が必要なときもあるでしょう。

数回の機械学習実行が推奨されていたが，そもそも人間の声が学習素材と定義されたシステムであり，最低限の「言葉」と認知できうる精度にするまで，機械学習結果を100数十回，フィードバックする再学習が必要となった．

加えて、学習素材は教師なしデータのため、反復回数の多い機械学習となっています。しかし学習データ（モデル）さえ整えられれば、制限のない波形をゼロから生成できるのが音声生成AIの特徴です。結果として、類似波形のない音のリソースから話声「あ」「い」という声の出力が行えました。「論文図9」は検証のため上から順に、咆哮の音(A)、生成した話声(B)、筆者の話声(C)と並べて可視化しました。Aの特徴的な模様は、Bに現れています。声紋の特徴が、ほぼ一致していると確認できます。

教師（ラベルデータ）なしの機械学習を行う意味

機械学習には様々なリソースのデータを利用しますが、それらデータは２つに区別します。正解を表すラベル付きの教師ありデータと、正解が付加されていない教師なしデータです。機械学習を教師なしデータで行う目的は、データに含まれるだろう未知のパターンや特徴を学習時に発見し、利用可能なモデルにすることにあります。音を話声として生成させるのですから、適切な選択です。ただ一般的には、数式などの現実的な問いに、最適な解を出力可能にする教師ありの機械学習が行う場合が多いです。

示された試行錯誤と機械学習によって、プロモーション動画内に「愛犬が話したらこんな声だろう」と思える、英語で語るシーンが含まれています。

バーチャルシンガー（歌唱生成AI）について

歌唱可能な音声生成AIを、バーチャルシンガーと呼称しています。このような歌唱生成AIは、テキストから音声を生成するテキスト・トゥ・スピーチ（TTS）技術が土台となっています。歌唱には通常の話声と違って、メロディやリズム感、音の高さと強弱などの要素が含まれます。生成AIはこれら要素を音声生成の過程で関与して、歌のような音声を生成します。

そのためにAIは、歌唱スタイルや表現方法を学習する必要があります。一般には、多くの歌唱データを分析し、必要に応じてアノテーション（教師ラベル付け）を行っています。歌唱のデータならば歌詞や音程、リズムや感情的な表現などにラベル付けをします。そして事前処理をした教師あり学習によって、ディープラーニングモデルなどを形作ります。特別なAIのモデル、GANやVAEを組み込むこともあります。これら学習とモデルを基に、歌唱を生成するAIが実用段階へ進化しつづけている状態です。

人間のクリエータはモデルや生成法のパラメータを調整して、洗練された歌唱になるように仕上げるのが仕事です。プロモーション動画の作成時には、息継ぎの音を加えたり、スラーやタイの指定をしたりしました。歌唱の個性を表現するためにも調整を行っていますが、この分野に限らず、生成AIの精度は日々、高くなっています。歌唱生成AIのなかには調整をしなくても、リアルで自然な歌声の生成ができるものが公開されてきました。

VoiSona(Cevio pro)歌唱編集画面 — VoiSona(旧Cevio pro) 歌唱編集画面

音楽と同期した自動モーション生成について

使用した「Charamin Studio」は音楽を周波数解析して、主にドラムとベース音からリズム（拍子）を得ています。そのリズムに同期させて、アバターが踊るモーションを「作成」するという、やや機械的な手法のソフトウェアです。

この技術もまたたく間に進化しています。音楽生成AIと3DCG生成AI、演者の動きをそのまま2D画像の動きに反映させる「Magic Animate」などの生成AIを再活用して、新たな技術を得た生成AIが公開され始めました。それらを人間のクリエータが組み合わせ、高い自由度の創作ができる環境になりつつあります。

Magic Animateで筆者を走らせる画像 — Magic Animateで筆者の写真を走らせた画像

アバターと背景画像のちょっとしたワザ

ソフトウェアのなかには、アバター(3DCG)と背景画像(2D)を、自力でひとつひとつ設定していくものがあります。この際、作業工数を減らすのならば、スカイドームを用います。これは画像をプラネタリウムのような（半）球体にUV展開して、3D形状にする手法です。背景画像は、画像生成AIを使って用意できますが、画像の両端がつながるようにしないと、分かれ目が見え隠れします。この点を無視すれば、作業工数を減らせます。

プロモーション動画の作成時には、以下の図で示す作業を人間のクリエータが行いました。

マーカレス・モーションキャプチャの普及

物理的なマーカを体に装着して、動きをデータ化する大掛かりなシステムは現在、高精度な画像認識を行えるAIが登場したため、ソフトウェアで扱えるようになりました。カメラからの入力動画をソフトウェアで処理するモーションキャプチャは、通称マーカレス・モーションキャプチャと呼ばれます。このときのAIの役割は、入力フレームごとに人の体の輪郭や特徴的な部位を識別して、動きのパターンを数値のデータにすることです。

それらをAIが行うには、人間の様々な動きやポーズを含む大規模なデータセットが必要です。ただ、データセットは研究機関や組織が、モーションキャプチャ用のものを公開しているので、ソフトウェアでの実現が身近になりました。

パターン認識と機械学習の「コラボ」

AIの画像認識精度は、パターン認識と機械学習をかけ合わせることで向上しました。パターン認識が扱う記号や数式だけでは表せない複雑な入力情報を、機械学習したAIが補います。その機械学習では、AIのアルゴリズムが教師ありデータを参考に、規則性をAI自身が見つけ出し学習していきます。学習手法はパターン認識と似ていることから、パターン認識は機械学習の一部だと表現する場合もあります。

プロモーション動画の作成時には、アバターの動きにアクセントをつけるため、人間のクリエータが演者となってユニークな演出を加えました。

ソフトウェア・モーションキャプチャーの例 — マーカレス・モーションキャプチャの利用例

試作プロモーション動画の比較と有効性について

AIクリエータと協調して、上のようなエンタメ要素を含むプロモーション動画が完成しています。また、参考値として、３つの動画を公開して比較した結果が示されました。

創作動画を筆者のYouTube チャンネルに公開し，得られた1週間分の情報を論ずる．母数の関係から，参考値としたい．

図10-1 は，東京五輪時に公開した本稿で述べた動画の日本語版(約1 分。A と定義する)，図10-2 は，単に商品のプロモーションを並べた動画（15 秒。B と定義する），図10-3 は，日本語版を改良した本稿の動画(約1 分。C と定義する)の反応だ．

図10の動画PV

エンタテインメントとしての評価

ダンスをする動画は世界的に、にぎわっています。示された参考値もダンス（エンタメ）を主体にして構成したプロモーション動画、AとCの視聴数が多いです。特に日本語の動画で、東京五輪に間に合わせるため、AIクリエータの出力内容をほとんど無加工でつなげた動画Aは、視聴数が突出しています。対し、映像に関してアマチュアなクリエータが素材をつなげた動画Bは、視聴者の興味を惹けていません。リピート視聴数では、有意な差はみられません。

表１と２を示す画

商業プロモーションとしての評価

プロモーション動画の役目は、視聴者を商品情報やサービス提供先に誘導することです。つまり、ウェブサイトへのリンク数が成果と言えるでしょう。示された値（クリック率）では、動画AとCが低くなっています。AIクリエータとの協調が無になりかねない結果です。しかし、ユーザが購入の際、同じ内容や機能の商品を選ぶとしたら、どう考えるでしょう。ユニークすぎるデザインのものと、シンプルで落ち着いたデザインのものと、どちらを選ぶかという消費者心理に一致していると、筆者は推察しました。

表３を示す画像

まとめ

AIクリエータを活かすポイントは、エンタテインメント用途ならば、想定外の指示や学習を行わせて出力した内容を、大いに利用することだと言えます。同様に、想定外の指示や学習に対応できるAIクリエータは、有益有能な存在です。協調していく生成AIを見極める、いちポイントになります。

実用用途の創作で活かすときは、AIクリエータに生成を一任して、出力内容にあまり手を加えず利用することが、ポイントになりそうです。創作物の斬新さは減っても、まとまりのある仕上がりとなります。日々、進化をつづける生成系AIの一部は、すでに実用的なレベルに達していますから。そして……

技術的な課題は，時代が進めば解消するが，最善の活用法もしくは，コラボレーションのあり方は，結論が導かれるか，筆者は想像できない．そんな今後の発展が楽しみだ．

論考では、AIクリエータとの創作スタイルは想像できない楽しさがある、と締めくくってあります。そこで最新の対話型生成AI（ChatGPT）自身に、この問いを投げかけました。生成AIからの返答をもって、記事のまとめにします。筆者の主観と返答が類似しました。そう、「ワクワクな」やりとりができるAIとのファーストコンタクトは、とっくに始まっていると思えてなりません。

ChatGPT４のまとめ

この記事に関するカテゴリー

米村貴裕 ( Takahiro Yonemura ): 東京出身、大阪在住。クリエイタで作家、技術者。近畿大学大学院で博士(工学)号を取得し、2001年、大学院在学中にITベンチャー(有)イナズマを起業。現在は同社の代表取締役を務めるかたわら、大学の非常勤講師を務め、地方創生SDGs、芸術科学会正会員としての活動にも携わる。幅広い作品を執筆し（2024年現在、著書67冊超え）技術系の書籍、記事からSF小説、論考などを手がける。創出作品には、全国マルチメディア祭(インディーズゲーム)・受賞作、第10回文化庁メディア芸術祭、審査委員推薦作品「紙龍」など評価されたものが複数ある。