LLMを活用したエージェント支援型の動画編集ツール「LAVE」

Large language models 2024年12月13日

3つの要点
✔️ 大規模言語モデルを活用した新しいエージェント支援型の動画編集ツール「LAVE」を提案
✔️ 大規模言語モデルによる支援と手動の編集の選択肢を提供し、ユーザーが自分の編集スタイルに応じて調整可能
✔️ ユーザーテストの結果、今後、大規模言語モデルを動画編集に組み込む際のシステム設計に役立つ示唆を提供

LAVE: LLM-Powered Agent Assistance and Language Augmentation for Video Editing
written by Bryan Wang, Yuliang Li, Zhaoyang Lv, Haijun Xia, Yan Xu, Raj Sodhi
(Submitted on 15 Feb 2024)
Comments: Paper accepted to the ACM Conference on Intelligent User Interfaces (ACM IUI) 2024
Subjects: Human-Computer Interaction (cs.HC); Artificial Intelligence (cs.AI); Computation and Language (cs.CL); Multimedia (cs.MM)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

動画は、コミュニケーションやストーリーテリングにおいて、非常に有力なメディアです。ソーシャルメディアや動画共有プラットフォームの登場によって、その人気は急上昇し、多くの人々が自分のコンテンツを制作し、共有するようになりました。しかし、動画編集は初心者にとっては難しく、大きな障壁となることがあります。特に、企画段階で動画のコンセプト作りに慣れていない人にとっては難しいタスクです。また、編集作業には、クリップの選択、トリミング、シーケンス作成など、細かい作業が必要になり、その上で、イメージ通りの一貫したストーリーに仕立てるには、さまざまなスキルが必要になります。さらに、これらを実行するためには、多機能で複雑な編集ソフトの使い方を学ぶだけでなく、手動での作業やストーリーテリングのスキルも求められます。場合によっては、そもそもどの編集ソフトを使うのかすら悩むこともあります。

最近では、自然言語処理を活用して動画編集の課題に対処する試みが進められています。自然言語を動画編集のインターフェースとして活用することで、ユーザーは意図を直接伝えることができ、手動での作業を減らすことができます。例えば、最近のAI技術を組み込んだ製品では、テキストから動画を生成するモデルを利用して動画を編集できるようになっています。また、音声ベースの動画ナビゲーションによって、ユーザーは音声コマンドを使用して動画を操作することができます。さらに、自然言語を用いて動画コンテンツを表現することで、手動編集の作業を効率化することもできます。テキストベースの編集では、ユーザーは時間に沿ったトランスクリプトを調整することで効率的に動画を編集することもできます。

しかしながら、このように製品改善が進んでいるものの、多くの動画編集ツールは依然として手動の編集に依存しており、カスタマイズされた条件下では支援機能が不足している状況です。いまだに多くのユーザーが動画編集の複雑さに頭を悩ませています。

ここでは、大規模言語モデルによって言語拡張を提供する新しい動画編集ツール「LAVE」を紹介しています。LAVEは、ユーザーの自由形式の言語コマンドを理解し、計画し、関連するアクションを実行して、ユーザーの編集したいことを効率的に達成することができます。そして、そのために、大規模言語モデルベースの計画実行用のエージェントを導入しています。

LAVEによって実行されるアクションには、アイデアのブレインストーミングや動画コーパスの概要を示すコンセプト化、セマンティックベースの動画検索、ストーリーボードの作成、クリップのトリミングなど様々なものが含まれます。LAVEは、ビジュアル言語モデル（VLM）を使用して、動画のビジュアルの要約を自動生成し、これにより大規模言語モデルが動画コンテンツを理解し、自然言語処理能力を活用して、ユーザーの編集作業を支援することができます。LAVEは、エージェント支援と直接操作の2つの方法を提供し、ユーザーが状況に応じてエージェントのアクションを調整できる柔軟性を持たせています。

また、ユーザーテストを実施しています。8人の参加者（初心者とプロの動画編集者の両方を含む）とともに、LAVEの動画編集ツールとしての有用性を評価しています。結果として、参加者はLAVEを使用して満足のいく動画を作成できることが示されています。また、ユーザーはシステムの機能を使いやすく、動画を作るのに役立つと評価しています。さらに、大規模言語モデルとエージェントを統合した将来のマルチメディアのコンテンツ編集ツールの開発に向けたデザイン・インプリケーションも提案しています。

動画編集ツール「LAVE」のデザイン方針

この論文では、動画編集ツール「LAVE」の設計、実装、評価を通じて、人間と大規模言語モデルエージェントの共同作業による動画編集の可能性を探求しています。この可能性を探求するために、2つの主要なデザイン方針を設定しています。

1つ目は、自然言語処理を活用して、編集の障壁を下げること（D1）です。LAVEは、自然言語と大規模言語モデルの能力を活かして、手動による動画編集の考え方を改善することを目指しています。LAVEは、ユーザーがアイデア出しから実際の編集作業まで、自然言語を使用してスムーズに進められるように設計されています。これにより、編集の障壁を大幅に下げ、誰でも簡単に高品質な動画を制作できるようになることを目指しています。

2つ目は、編集作業におけるユーザーの主体性を保つこと（D2）です。現在、AIの支援によるコンテンツ編集に対して、ユーザーの自律性が失われる懸念があるとされています。この懸念を解消するため、LAVEはAIの支援と手動編集の両方のオプションを提供しています。ユーザーはAIの支援を必要に応じて調整したり、完全にオプトアウトすることができます。これにより、最終的な作品がユーザーのイメージを反映し、ユーザーが意思決定の権限を持ち続けることできるように保証されています。

LAVEは、自然言語とAI技術を活用して動画編集のプロセスをより直感的に使いやすいものにしながら、ユーザーの創造的な主体性を尊重する設計を目指しています。このデザイン方針により、ユーザーは技術的な障壁を気にせずに、自分のアイデアを自由に表現することができると期待されます。

動画編集ツール「LAVE」のインターフェース

LAVEは、大規模言語モデルによるエージェント支援と言語拡張機能を提供する新しい動画編集ツールです。ユーザーにとって直感的かつ効率的な動画編集機能を提供しています。下図は、動画編集ツール「LAVE」のユーザーインターフェースです。

LAVEのUIは5つのコンポーネントから構成されています。ここでは特に主要な3つについて触れています。」

（A）動画編集エージェント
（B）言語拡張動画ギャラリー
（C）自動タイトル生成
（D）動画の要約表示
（E）動画編集タイムライン

（A）の動画編集エージェントでは、ユーザーとの会話を通じて編集作業を支援します。ユーザーは自由形式の言語を使用してエージェントと対話し、エージェントはカスタマイズされた応答を提供します。そしてエージェントは以下の機能をサポートしています。

フッテージの概要把握：動画クリップの要約とカテゴリ分け
アイデアブレインストーミング：動画編集のアイデアを提案
動画検索：言語のクエリに基づいて関連する動画を検索
ストーリーボード作成：提供されたストーリーラインに基づいてクリップを順序付け

エージェントは、下図のように計画状態と実行状態の2つのモードで動作します。計画状態（左）では、ユーザーはエージェントに対して編集コマンドを入力します。そして、エージェントはユーザーの目標を確認し、具体的な目標を明確にします。さらに、エージェントは目標達成のための具体的なステップを提案します。ユーザーはこのステップに納得できない場合、プランを修正することができます。

ユーザーがプランを承認すると、エージェントは実行状態に移行します。この状態では、ユーザーはエージェントのアクションを順番に承認します。そして、各アクションの結果がエージェントからユーザーに提示されます。プランに沿って次のアクションがある場合、エージェントはユーザーに次のアクションを通知し、承認を待ちます。LAVEの動画編集エージェントは、このようにして計画と実行を段階的に行い、ユーザーの編集作業をスムーズにサポートします。このエージェントを活用することで、動画編集のプロセスが効率的かつ効果的に進められるようになります。

次に（B）の言語拡張動画ギャラリーは、自然言語による説明を提供することで、クリップの内容を簡単に把握することができます。タイトルと要約はクリップの内容を示し、ユーザーは「タイムラインに追加」ボタンでクリップを編集タイムラインに簡単に追加できます。さらに、自然言語のクエリを使用してギャラリー内の動画を検索し、関連性の高い順に表示することもできます。

そして、（E）動画編集タイムラインです。選択された動画クリップは、タイムラインに表示されます。各クリップは開始、中間、終了の3つのサムネイルで表され、内容を一目で把握できます。そして、タイムラインでは、2つの主要機能がサポートされています。

1つは、ユーザーはクリップをドラッグ＆ドロップして順序を設定できます。また、大規模言語モデルベースのストーリーボード機能を使用して自動的にクリップを順序付けることもできます。もう1つは、ユーザーは手動で開始点と終了点を選択するか、大規模言語モデルベースのトリミング機能を使用して、特定のセグメントを抽出することができます。

LAVEは、アイデアの発案から計画、編集操作まで、幅広い編集工程を支援することができます。しかし、ユーザーに厳密な工程を強制することはありません。ユーザーは、自分の編集目標に応じて必要な機能を自由に選択して利用できます。

例えば、明確な編集方針とストーリーラインを持つユーザーは、アイデア発案段階を飛ばして、すぐに編集作業に取り掛かることができます。この柔軟性は、LAVEの大きな特徴です。

現在、LAVEは、主にソーシャルメディアプラットフォーム向けのカジュアルな編集に最適化されています。精度が求められるプロフェッショナルな編集での大規模言語モデルエージェントの統合は、今後の課題として残されていますが、将来的にはこれらのニーズにも対応されることが期待されます。

LAVEの柔軟な手法によって、ユーザーは自分のスタイルやニーズに合わせた動画編集ができるようになり、初心者から経験豊富な編集者まで、幅広いユーザーが効率的に作業を進められるようになります。

バックエンドシステム - エージェントの設計

LAVEのエージェントは、推論、計画、ストーリーテリングなど大規模言語モデルの多様な言語能力を活用しています。このエージェントは「計画」と「実行」の2つの状態を持ち、これには2つの利点があります。1つは、高レベルの目標設定です。これは、ユーザーが複数のアクションを含む高レベルの目標を設定できるため、詳細なコマンドの指定が不要になるということです。もう1つは、プランの確認と修正です。実行前にエージェントがプランを提示し、ユーザーが修正する機会を提供することで、十分に制御もすることができます。

この計画・実行エージェントを支援するために、バックエンドのパイプラインが設計されています。下図に示すように、このパイプラインはユーザー入力に基づいてアクションプランを作成し、テキストから関数呼び出しに変換して対応する機能を実行します。

LAVEの動画編集エージェントのアクションプランニングには、大規模言語モデルのプロンプト技術を使用しています。このプロンプト形式は、複雑なタスクをサブタスクに分解し、ユーザーの目標を達成するための具体的なステップを提示します。複雑なタスク（ユーザーの目標）をサブタスク（編集機能）に分解するために、大規模言語モデルの推論能力を活用するチェーンオブソートの考え方を活用しています。プロンプトの構成の前半部分は、次の通りです。

役割の割り当て：エージェントに動画編集アシスタントとしての役割を指示する
アクションの説明：エージェントが実行できるアクションのリストを詳細に説明し、ユーザーのコマンドに適した応答を選択可能にする
形式の指示：アクションプランを一貫した形式で出力するよう指示し、ユーザーの編集目標とそれを達成するためのステップを明確に列挙する

続いて、会話履歴と最新のユーザー入力を追加し、これがアクションプランを生成するための完全なプロンプトとなります。システムは最大6000トークンのメッセージ履歴を保持し、大規模言語モデルのコンテキストウィンドウに収まるよう調整されています。

アクションプランが策定されると、ユーザーの承認を得て各アクションを順次実行します。この方法により、ユーザーは各アクションの結果を観察しながら次のステップを決定できます。LAVEは、アクションプランから各アクションの説明を解析し、対応するバックエンド関数呼び出しに変換します。これには、関数呼び出しに特化してファインチューニングされたGPT-4のチェックポイントを利用します。関数実行の結果はフロントエンドUIに反映され、ユーザーに提示されます。

バックエンドシステム - 大規模言語モデルを活用した編集機能の実装

LAVEは、ユーザーの動画編集を支援するために、以下の大規模言語モデルを活用した5つの機能を提供しています。

フッテージの概要把握
アイデアブレインストーミング
動画検索
ストーリーボード作成
クリップトリミング

最初の4つの機能は、エージェントを通じて利用することができ、最後の1つは編集タイムライン上のクリップをダブルクリックすることで利用できます。すべての機能は、各クリップのタイトルと要約を含む、未編集映像の自動生成された言語記述に基づいて構築されています。

このテキストの生成には、1秒ごとに動画フレームをサンプリングし、LLaVAモデルを使用してキャプションを付けています。キャプションを元にGPT-4でタイトルと要約を生成し、各動画に一意のIDを割り当てます。このIDは、後続のストーリーボード作成機能などで利用されます。

LAVEの動画検索機能は、このテキストをOpenAIのtext-embedding-ada-002を使って埋め込み、ベクトルデータベースに保存されます。検索時には、ユーザーのクエリを同じモデルで埋め込み、動画とクエリのコサイン距離を計算してランク付けします。これにより、最も関連性の高い動画がUIに表示されます。

大規模言語モデルを活用した5つの機能のうち1つ目の「フッテージの概要把握」は、ユーザーの動画コレクション内の共通テーマに基づいて動画を分類し、概要を提供します。プロンプトに視覚的ナレーションを含めて大規模言語モデルに送り、生成された概要をチャットUIに提示します。

2つ目の「アイデアブレインストーミング」では、ユーザーの動画に基づいてクリエイティブな編集アイデアを生成します。プロンプトには関数の指示が含まれ、必要に応じてクリエイティブガイダンスも追加します。生成されたアイデアはチャットUIに表示されます。

4つ目に挙げている「ストーリーボード作成」は、ユーザー提供のナラティブに基づいて動画クリップをシーケンス化します。ユーザーのガイダンスをもとに、大規模言語モデルがストーリーボードを作成し、タイムラインの動画の順序を更新します。出力はJSON形式で提供され、後続の処理が容易になります。

5つ目に挙げている「クリップトリミング」は、大規模言語モデルの推論能力を利用して、ユーザーのトリミングコマンドに一致する動画のセグメントを識別します。トリミング結果はJSON形式で表示され、ユーザーに提示されます。トリミングの精度はフレームサンプリングレートに基づいて、調整することができます。

これらLAVEは、フルスタックのWebアプリケーションとして設計されています。フロントエンドUIは、React.jsを使用して開発されており、直感的で使いやすいインターフェースを提供しています。バックエンドサーバーはFlaskで構築され、フロントエンドとスムーズに連携して動作します。

また、大規模言語モデルの推論には、主にOpenAIの最新のGPT-4モデルを使用しています。アクションプランを関数にマッピングする際には、関数呼び出し用途に特化して微調整されたgpt-4-0613チェックポイントを利用しています。GPT-4の最大コンテキストウィンドウは8,192トークンであり、この制限内でエージェントは1回の呼び出しで約40本の動画の説明を処理できます。

また、動画検索のためのベクトルストアの構築には、LangChainのChromadb（ラッパー）を使用しています。これにより、効率的かつ高速な検索機能を実現しています。さらに、動画の前処理は、Nvidia V100 GPUを搭載したLinuxマシンで実行しており、高速なデータ処理とキャプション生成を可能にしています。最終的な動画編集結果の合成には、ffmpegを使用しています。ffmpegは、動画の編集とエンコードにおいて非常に強力なツールです。

LAVEは、これらの技術要素を組み合わせることで、高性能でユーザーフレンドリーな動画編集体験を提供しています。システム全体がシームレスに連携し、ユーザーの編集作業を効率的にサポートします。

ユーザーテスト - 概要

LAVEのユーザーフィードバックを得るために、ユーザーテストを実施しています。このテストでは、LAVEの言語拡張機能が動画編集作業にどの程度貢献しているかを評価し、大規模言語モデルを活用したエージェントに対するユーザーの反応を理解することを目的としています。特に、エージェントがユーザーの主体性と独自性にどのように影響するかを調査しています。

ユーザーテストには、異なる動画編集経験を持つ8人の参加者が参加しています。そのうち3人が女性で、平均年齢は27.6歳（標準偏差=3.16）です。また、参加者はテクノロジー系企業から集められ、動画編集の初心者からプロまでさまざまな経験を持っていました。

初心者（P4, P5, P7, P8）：動画編集の経験が少ないか中程度で、特にP8は最も経験が少なく、最後に編集したのは数年前
熟練者（P1-3, P6）：動画編集ツールに精通しており、P1はデザイナーで仕事で時々編集し、P2は映画学を副専攻し、高校時代から編集、P3はYouTubeチャンネルを運営し、P6はPhD学生で週に一度ライフログ動画を編集

この多様な参加者によって、LAVEの性能をさまざまな編集状況における評価をしています。ユーザーテストの前日に、参加者には前処理のための動画セットを提出するよう依頼し、各クリップが1分未満の少なくとも20本のクリップを提供するように依頼しています。ユーザーテストの所要時間は1〜1.5時間で静かな環境で実施されています。

参加者がテスト会場に到着すると、約15〜20分程度、テストの概要とLAVEの説明が行われます。その後、自分の映像を使用してLAVEを使って、20〜30分程度で動画を制作してもらいます。LAVEの利用後、参加者はアンケートに回答し、各機能とシステム全体の有用性や使いやすさ、信頼、主体性、エージェントの役割に対する認識について、さまざまな質問に回答します。また、各編集機能に対するエージェント支援と手動操作のどちらを好むかについての好みも尋ねています。アンケートの質問はすべて7段階のリッカート尺度に準じています。

その後、約20〜30分間の半構造化インタビューを実施し、参加者は考えたことを共有し、質問があればいつでも尋ねることができます。ユーザーテスト中はスピードを優先するよう指示することはせず、ユーザーがLAVEをどのように利用して動画を編集するかを観察し、フィードバックを収集することができるよう環境に配慮しています。

ユーザーテスト - 結果と考察

ここでは、ユーザーテストから得られている結果と観察を紹介します。

参加者全員がLAVEを使って満足のいく動画を作成することができ、不満の程度は低いという結果になっています（平均=2、標準偏差=1.3）。参加者のうち、7人のは、最終結果に対する満足度を7点中6点と評価し、1人（P2）は5点としています。LAVEを使用して楽しいと感じ、定期的に使用したいと考える人が多いという結果になっています。特に、LAVEが初心者に対する動画編集を障壁を下げるという点で評価されています。

LAVEのデザインについては、概ね有用かつ使いやすいと感じられているようでしたが、機能によっては評価が分かれています。特に、オリジナリティを重視する参加者は、エージェントからの提案を好まない傾向がありました。また、大規模言語モデルの確率的な性質により、トリミングやストーリーボードの結果が期待と異なることがあるという指摘もありました。

また、多くの参加者がLAVEの自動化を信頼でき、制御しやすいと評価しました。多くの参加者が自分の作品であるという貢献度を強く実感しています。

そして、AIエージェントをリーダーと見なす人はおらず、参加者の半数はエージェントを「アシスタント」、もう半数は「パートナー」と認識していました。自分の作品であり、自分が編集していることを感じながら、パートナーから支援を受けていると感じているようです。さらに、多くの参加者は、LAVEが特に創造性の部分で貢献していると感じました。エージェントをパートナーと見なしている参加者は、特にAIと強い共創感を持っていることがわかりました。

ユーザーテスト結果の考察

ユーザーテストでは、システムとのインタラクションやマルチメディアコンテンツの表現手段として自然言語を使用することが非常に効果的であることを示されています。自然言語を使うことで、手動作業が減少し、編集がより理解しやすくなります。将来的には、動画編集に限らず、音声、動作などの感覚的な入力をテキストに変換することで、より広範なマルチメディアコンテンツの編集を実現するシステムが期待されます。

また、ユーザーテストでは、大規模言語モデルを活用したエージェントを取り入れることでコンテンツ編集体験を向上させることができますが、エージェント支援の好みはユーザーやタスクの性質によって異なることも示されています。独自のアイデアを重視するユーザーはエージェントとのブレインストーミングを避ける傾向がある一方で、その他のユーザーはそれを好む傾向があります。将来的には、ユーザーの好みやタスクの性質に応じて、自動的に適応するエージェント支援を提供し、必要に応じて支援を有効化、無効化、カスタマイズできる機能が求められると考えられます。また、エージェント支援と手動編集の柔軟性を提供し、ユーザーがAIの予測を微調整し、不正確さを修正できるようにすることも必要になると考えられます。

さらに、ユーザーの大規模言語モデルに関する事前の知識や経験が、編集システムとの活用度合いに影響を与えることがわかりました。大規模言語モデルの理解が深いユーザーは、エージェントの機能をすぐに把握し、効率的に活用することができる一方、大規模言語モデルに不慣れなユーザーは、システムを最大限に活用できない可能性があります。したがって、初心者向けのフォローアップ機能がさらに求められると考えられます。

これらの示唆に基づき、大規模言語モデルを活用したコンテンツ編集システムのデザインを改善し、ユーザーニーズにより適応した支援を提供できるよう努めていくことが求められます。

まとめ

この論文では、大規模言語モデルを活用した新しいエージェント支援型の動画編集ツール「LAVE」を提案しています。このシステムは、最新技術を使って自然言語を最大限に有効活用することで動画編集をサポートします。

この論文では、このLAVEの主要な機能を詳しく紹介しています。また、ユーザーストを通じて、LAVEの有効性を実証し、動画編集を支援する大規模言語モデルエージェントに対するユーザーの認識や反応を整理しています。さらに、この研究から得られた知見をもとに、将来の類似システムの設計に役立つ示唆も共有しています。

この論文では、エージェント支援型のメディアコンテンツ編集ツールの将来に対する新たな視点を提供し、その可能性を示しています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。