動画から視聴者の行動を予測することを可能にしたマルチモーダルモデルが登場！

agent simulation 2023年10月02日

3つの要点
✔️ コンテンツとそれに対応する受け手の行動から構成されたデータセットであるThe Content Behavior Corpus(CBC)を作成
✔️ behavior tokensを用いて学習を行う大規模マルチモーダルモデルであるLarge Content and Behavior Models(LCBM) を提案
✔️ 様々なタスクにおいて、GPT-3.5・GPT-4と同等以上の性能を発揮した

Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior
written by Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy
(Submitted on 1 Sep 2023 (v1), last revised 8 Sep 2023 (this version, v2))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

1949年にShannonという学者が情報理論についての論文を発表し、彼はこの論文の中で「コミュニケーションは以下の3つのレベルに分けられる」と述べました。

レベルA - Technical problem: コミュニケーションのシンボルをどれだけ正確に伝達できるか
レベルB - Semantic problem: 伝達されたシンボルは、どれだけ正確に望ましい意味を伝えているか
レベルC - Effectiveness problem: 受け取った意味は、どれだけ効果的かつ望ましい形で行動に影響を与えるか

遠隔通信技術の発達によって、レベルAの問題はインターネットのような大きな進歩をもたらし、近年では大規模言語モデル(LLM)がレベルBに向けて大きな進歩を遂げている一方で、これまでレベルCの問題はほとんど手つかずのままでした。

レベルCの問題は、望ましい受け手の行動を予測し、コミュニケーションを最適化することであり、LLMは多くのタスクで幅広い汎化能力を発揮する一方で、これらの問題を解決することは困難になっています。

本論文の筆者は、その理由の一つが、LLMの学習にはシェア数・いいね数・クリック数・購入数・リツイート数などのコミュニケーションにおける受け手の行動を定義する"behavior tokens"が含まれていないからであると指摘しました。

本稿では、こうした背景からコンテンツとそれに対応する受け手の行動からなるデータセットであるThe Content Behavior Corpus(CBC)を作成し、behavior tokensを用いて学習を行うことで、LLMの推論範囲をコンテンツ⇨コンテンツからコンテンツ⇨行動へと拡大する事を可能にした大規模なマルチモーダルモデルであるLarge Content and Behavior Models(LCBM)を提案した論文について解説します。

The Content Behavior Corpus(CBC)

一般に公開されているコーパスの多くはコンテンツから受け手の行動を除去しているため、本論文ではコンテンツと行動をtext-to-textとしてモデル化するために、コンテンツとそれに対応する受け手の行動からなるデータセットであるThe Content Behavior Corpus(CBC)を作成しました。

本論文では、コンテンツと行動のデータを含んだ大規模な公開ソースであるYoutubeを利用しており、Youtubeは(a)チャンネル名・チャンネルの説明・登録者数、(b)動画・クリエイター提供のタイトルと説明、(c)いいね数・視聴回数・ユーザーコメント・リプレイグラフといった形の行動から構成されています。

こうした構成から、本データセットは下図に示すようにCommunicator・Message・Channel・Receiver・Effectのコミュニケーションの5つの要素を全てカバーするものとなっています。

Large Content Behavior Model(LCBM)

次に、本論文で提案された大規模なマルチモーダルモデルであるLarge Content Behavior Model(LCBM)について解説します。

LCBMの全体像を下図に示します。

本論文では、画像とテキストの両方のコンテンツを理解するために、BLIP・Llava・VideoLlamaなどの最近のモデルと同様のアプローチをとっており、Visual Encoder(EVA-CLIP)を使って画像をエンコードし、LLM(Llama)を使ってテキストをエンコードしています。

加えて本手法では、EVA-CLIP・Uniformer・GMHRAを用いてビデオフレームをエンコードすることにより、ビデオコンテンツも含める事が可能となっています。

次に、LLMの豊富な言語表現を効果的に活用するために、BLIP-2のQ-Formerに線型レイヤー(Linear layer)を追加し、Visual Content Embeddingsにより視覚トークンを言語トークンに変換します。

LCBMはLlamaベースのVicuna-13B LLMをベースにしており、先行研究と同様に2段階の学習パラダイムによって構成されています。

この学習パラダイムにより、第1段階ではWebVid・COCO caption・Visual Genome・CC3M・CC12Mといったデータセットを利用し、visual encoderの埋め込みをLLMと整合させ、第2段階にてBehavior Instruction Fintuning(BFT)によりモデルをファインチューニングする構造になっています。

Content Behavior Test Benchmark

本論文では提案手法の有効性を実証するために、下図に示すように4種類のタスクを設計しました。

各タスクの内容を以下に示します。

Behavior Simulation: 動画コンテンツ・タイトル・シーンごとの説明・チャンネルと登録者数・投稿日が与えられた時の視聴者の行動を予測する
Content Simulation: シーンごとの説明・チャンネル情報・ビデオコンテンツの内容が与えられ、視聴者の行動からコンテンツを予測する
Content Understanding: 既存研究に基づいて、トピック分類・感情分類・行動の理由の分類といったコンテンツ内容を理解しているかを検証するタスクを行う
Behavior Understanding: コンテンツ上の人物の振る舞いをモデルに説明させる

それぞれのタスクに対して、LCBM・GPT-3.5・GPT-4・Vicuna-13B・VideoChatの5種類のモデルを用いて比較を行いました。

Behavior Simulation

Behavior Simulationの実験結果は下図のようになりました。(緑＝最も良いスコア、青＝2番目に良いスコア)

注目すべきは、LCBMのモデルサイズは他モデルよりも10倍以上小さいのにも関わらず、最も良いスコアを出している点であり、視聴者の行動を適切に予測できていることが実証されました。

Content Simulation

Content Simulationの実験結果は下図のようになりました。

本タスクにおいてもLCBMは最も良いスコアを達成しており、コンテンツ予測においても既存モデルよりも優れた性能を発揮していることが分かりました。

Content Understanding

Content Understandingの実験結果は下図のようになりました。

本タスクでは、GPT-3.5が最も良い結果を出していますが、LCBMはほとんどの評価指標で2番目に良い性能を発揮していることが確認できました。

Behavior Understanding

Behavior Understandingの実験結果は下図のようになりました。

本タスクにおいても、LCBMは最も良い性能を発揮していることが確認できました。

本実験結果より、LCBMはGPT-3.5やGPT-4よりも10倍小さいモデルサイズであるにも関わらず、全てのタスクで同等以上の性能を発揮していることが実証されました。

これらの結果から、GPT-3.5やGPT-4のような大規模モデルの学習コーパスにはbehavior tokensが含まれていないことが推測でき、本実験によりbehavior tokensを用いてLLMを訓練する本手法の有効性を実証することができました。

加えて下図に、本実験で見られた視聴者の行動を理解し、説明するLCBMの能力を示すいくつかの例を挙げます。

VicunaやGPT-3.5といった既存モデルと比較して、LCBMは適切に視聴者の行動を理解できており、ここでも本手法の有効性を実証する結果となっていることが確認できました。

まとめ

いかがだったでしょうか。今回は、コンテンツとそれに対応する受け手の行動からなるデータセットであるThe Content Behavior Corpus(CBC)を作成し、behavior tokensを用いて学習を行うことで、LLMの推論範囲をコンテンツ⇨コンテンツからコンテンツ⇨行動へと拡大する事を可能にした大規模なマルチモーダルモデルであるLarge Content and Behavior Models(LCBM)を提案した論文について解説しました。

本論文は、これまでLLMの学習用データの前処理時に除去されてきた受け手の行動であるbehavior tokensを学習に用いることがコンテンツシミュレーションと行動のシミュレーションの推論に有効であることを発見した最初の論文になります。

加えて、今後の研究に利用可能なデータセットも作成しており、本研究に触発され様々な応用的な研究が行われることが予想されるため、これからの動向に注目が集まります。

今回紹介したデータセットやモデルのアーキテクチャの詳細は本論文に載っていますので、興味がある方は参照してみてください。