最新AI論文をキャッチアップ

【LaDi】テキストから創造性の溢れる画像・動画を生成!

【LaDi】テキストから創造性の溢れる画像・動画を生成!

Large language models

3つの要点
✔️ 革新的なフレームワーク「LaDi」の提案:大規模言語モデルを活用して、関連性の高い詳細な画像生成プロンプトを簡単に作成できる新フレームワークを提案。
✔️ プロンプト技術の適用とその効果:適切なモデル選択、リトリーバル拡張生成、ファインチューニングを含む技術で、画像生成を芸術的かつ一貫性のあるものに完成度を向上。
✔️ 技術の応用範囲と今後の展望:「LaDi」はテキストから動画へも適用可能であり、新しいアルゴリズムやモデルの採用により、さらなる発展も期待。

LLM as an Art Director (LaDi): Using LLMs to improve Text-to-Media Generators
written by Allen RoushEmil ZakirovArtemiy ShirokovPolina LuninaJack GaneAlexander DuffyCharlie BasilAber WhitcombJim BenedettoChris DeWolfe
(Submitted on 7 Nov 2023)
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

テキストから画像へのモデルの進化は、アート、映画、デジタルマーケティング、バーチャルシミュレーションなど幅広い分野での応用を可能にし、画像生成技術の大きな転換点となっています。Stable DiffusionやDALL-Eのようなモデルは、特に注目を集めているモデルです。そして、画像生成モデルにおいて、画像生成の質を決定する上でテキストプロンプトの役割は非常に重要です。

適切なプロンプトがなければ、技術的に優れていても求める画像を生成することができません。これは、プロンプト作成の複雑さと、詳細と簡潔さのバランス、トーンやスタイルの伝達など、微妙な要素を考慮する必要があります。

この問題に対処するため、この論文では「LaDi」という新しいフレームワークを提案しています。LaDiは、大規模言語モデルを活用して、優れた画像生成プロンプトを作成することができます。例えば、「二階建てのピンクの家」というシンプルなプロンプトではなく、「夕日のバラ色の光に浸った、庭園が整備されたヴィクトリア朝スタイルの二階建ての家」といった詳細で情景を想起させるプロンプトを簡単に生成することができます。さらに、LaDiは制約付きデコーディングと特殊ツールの使用を組み合わせることで、一貫した色使いや特定の要素の維持など、画像が満たすべき条件を設定することもできます。これにより、予測可能で関連性の高い画像生成が可能になります。

この技術は、Plai Labsで開発され、ソーシャルメディアプラットフォーム「PlaiDay」をはじめとする今後のすべてのサービスで採用されるとしています。LaDiによるアプローチは、生成される画像の質を飛躍的に向上させることを目指しています。

適用技術

この論文では、Stable Diffusionなどのテキストから画像へのジェネレータを、大規模言語モデルを活用した知的なプロンプティングや制約付きデコードで強化する多様な技術に焦点を当てています。これらのアプローチにより、大規模言語モデルが、画像生成をより関連性があり、一貫性がある、そして芸術的価値の高い方向へ導く「アートディレクター」として機能させています。

まず効果的なアートディレクターを作成するには、適切な大規模言語モデルの選択が不可欠です。GPT-4、AnthropicのClaude、GoogleのBardなどの商用の大規模言語モデルは、柔軟性と制御性の点でローカルホスト型モデルに勝るとされています。言語モデルの急速な進化に対応するため、MistralやLlamaといったモデルの継続的な実験を推奨しています。特に、画像データに基づく意思決定が必要な場合は、Minigpt-4のような視覚に対応した言語モデルの使用が有効です。

リトリーバル拡張生成(RAG)も利用しています。リトリーバル拡張生成(RAG)は、関連する文脈情報を検索して言語モデルのプロンプトに追加することで、より豊かで正確な画像を生成するための手法です。この技術は、特定の概念やシーンをより正確に反映した画像生成を可能にします。

また、Low Rank Adapters(Lora)を利用したファインチューニングも利用しています。これは、大規模な事前学習済みモデルを効率的に特定のタスクやスタイルに合わせて調整する方法を提供しています。このアプローチにより、Stable Diffusionなどのモデルを、初期学習セットにないオブジェクトや人物の画像生成や、特定の芸術スタイルに合わせた生成にファインチューニングできます。Loraの低ランクアダプターレイヤーは、計算効率を保ちつつ、言語モデルが特定のドメインの用語や表現に適応するのを容易にします。LaDiでは、これらファインチューニングされたLoraモデルをStable Diffusion、AnimateDiff、及び大規模言語モデルの改善に活用しており、それらの組み合わせの可能性から大きな価値を見出しています。

プロンプトの作成

Stable Diffusionのようなテキストから画像へのモデルで生成される画像の品質を最適化する上で最も重要な要素の一つがテキストプロンプトです。この論文では、効果的なプロンプトの構成要素に焦点を当て、各要素がモデルが高忠実度で文脈に関連し、美的にも魅力的な画像を生成する能力にどのように貢献するかを明らかにしています。

適切なプロンプトは、その具体性と詳細さによって特徴付けられ、これらはキーワードカテゴリーの広範なチェックリストを通じて解析される要素です。これらのキーワードカテゴリーには次の要素が含まれています。

  • 主題:画像の中心的なテーマ
  • 媒体:芸術的な媒体
  • スタイル:芸術的なスタイルや美学
  • アーティスト:模倣するアーティストの名前
  • ウェブサイト:特定のスタイルや品質で知られるウェブサイト
  • 解像度:鮮明さや詳細を示すキーワード
  • 色:支配的またはテーマに沿った色
  • 照明:照明のタイプと品質
  • 追加の詳細:画像を強化するためのその他の要素

各カテゴリーは、プロンプトの表現力を高めるためのガイドとして機能します。例えば、「謎めいたジャングルの中のスチームパンク探検家」の画像を生成する場合、キーワードカテゴリーは次のようなものが想定されます。

  • 主題:「機械の手足を持ち、革と歯車を身につけたスチームパンクの探検家が、エキゾチックな植物と動物がいる謎めいた、密集したジャングルの中に立っている。」
  • 媒体:「デジタルペインティング」
  • スタイル:「ネオ・ビクトリアン、冒険テーマ」
  • アーティスト:「ヴィンセント・ヴァン・ゴッホとM.C.エッシャーのスタイルに影響を受けて」
  • ウェブサイト:「DeviantArt」
  • 解像度:「非常に詳細で、焦点が鮮明」
  • 追加の詳細:「古代の寺院と空にはスチームパンクの飛行船を背景に」
  • 色:「抑えられたアースカラーに鮮やかな色彩の爆発」
  • 照明:「密集した葉の間から差し込む斑点のような日光」

そして、最終的なプロンプトは、次のようになります。「機械の手足を持ち、革と歯車を身につけたスチームパンクの探検家が、エキゾチックな植物と動物がいる謎めいた、密集したジャングルの中に立っている、デジタルペインティング、ネオ・ビクトリアン、冒険テーマ、ヴィンセント・ヴァン・ゴッホとM.C.エッシャーのスタイルに影響を受けて、DeviantArt、非常に詳細で、焦点が鮮明、古代の寺院と空にはスチームパンクの飛行船を背景に、抑えられたアースカラーに鮮やかな色彩の爆発、密集した葉の間から差し込む斑点のような日光。」

プロンプトが効果的であるためには、必ずしもすべてのカテゴリーが必要ではありませんが、これらが用意されるほど、生成される画像の品質を向上させることができます。実験は重要であり、異なる組み合わせが異なる結果をもたらすため、ユーザーは望ましい結果を得るためにプロンプトを繰り返し試すことが奨励されます。

効果的なプロンプトを通じて、Stable Diffusionなどのモデルは正確な表現だけでなく、複雑で微妙な、感情を呼び起こす真に芸術的な作品を創造することができます。LaDiは、このチェックリストに従ってプロンプトを作成するためのガイドに従います。また、大規模言語モデルが重要なトークンを強調/アップウェイトし、重要でない概念を軽視/ダウンウェイトする方法を示すガイドも書きます。

テキストから動画への効果的なプロンプティングの作成

これまでに説明したプロンプト技術は、主にStable Diffusionを用いた画像生成に焦点を当てています。しかし、アートディレクターとしての大規模言語モデルの活用フレームワークは、テキストから動画を生成などの他のモダリティにも拡張することができます。

テキストから動画を生成する技術の最も魅力的な特徴の一つは、プロンプトトラベリングです。これは、一連のフレームにわたって異なるプロンプト間の滑らかな視覚的遷移を容易にします。これにより、シーンの要素を徐々に変更してアニメーションナレーティブを作成することができます。しかし、視覚的に不自然なくつながり合わせることができるプロンプトを作成することが主な課題です。

LaDiは、テキストから動画を生成するモデルでのプロンプトトラベリングに特化して作成されたプロンプトを生成するために容易に適応できます。言語モデルを最適化して、補間プロセスを支援する重要な語彙的および意味的重複を持つプロンプトを構築します。プロンプトは、核となる主題を一貫して特徴付けつつ、キーフレーム間で記述要素を段階的に修正するように構造化されます。

例えば、様々な宇宙の風景を通過する宇宙船の動画を生成する場合、大規模言語モデルによるアートディレクターは、異なるキーフレームのために次のプロンプトを生成するかもしれません。

  • フレーム1:「紫と青の色合いの星雲を滑るように進む、スリークな銀色の宇宙船。」
  • フレーム15:「巨大な宇宙の岩がある小惑星帯を通過する、スリークな銀色の宇宙船。」
  • フレーム30:「赤とオレンジの輪を持つ惑星に接近する、同じスリークな銀色の宇宙船。」

「スリークな銀色の宇宙船」というフレーズをプロンプト全体で一貫して使用していることに注目してください。核となる主題をそのままに、背景のような詳細を滑らかに変更することで、テキストから動画を生成するモデルは、これらのプロンプト間を補間し、宇宙旅行シーケンスをアニメーション化することができます。

言語モデルは、このように一貫して変化するプロンプトのペアサンプルを使用してファインチューニングされます。また、ナレーティブ構造に基づいてプロンプト変更の最適なポイントを特定する方法も学びます。

分類器フリーガイダンス(CFG)とネガティブプロンプト

ネガティブプロンプトの概念を取り入れることで、ユーザーは望ましくない特徴を明示的に指定できます。例えば、ユーザーが「低解像度」や「素人の描画」などの画像を望まない場合、これらの用語をネガティブプロンプトとして含め、生成プロセスをガイドすることができます。

CFGは、望ましくない行動を例示する実例を追加することで機能します。例えば、暴力的なコンテンツを生成しないようにするために、「男が別の男を殴る」というサンプルのネガティブデモンストレーションを追加することができます。大規模言語モデルは、デコード中にこれらの例から学習します。

CFGを実装するために、ポジティブおよびネガティブプロンプトのデモンストレーションをラベル付けしたデータセットをキュレーションします。大規模言語モデルは、これらの例を区別するようにファインチューニングされます。プロンプト生成中、ネガティブデモンストレーションはリトリーバルを介して動的に選択され、コンテキストに連結されます。

これにより、大規模言語モデルは出力で望ましくない属性を避けるようにガイドされます。CFGは、単純に特定のトークンをブラックリストに登録すること場合と比較して、はるかに複雑な制約を課すことができます。「貧弱な文法」や「過剰な冗長性」といった全体的な概念も、デモンストレーションを調整することで抑制することができます。

CFGと明示的なネガティブプロンプトを混合する実験も行い、より大きな制御を実現しています。冒涜表現のような不変のトークンはブラックリストに登録され、より広範な属性はCFGデモンストレーションを通じて形作られます。このハイブリッドアプローチは、同義語によって制約が回避される「リーク」を防ぐこともわかっています。

LaDiは、テキストから画像への生成に関連する複数の次元でCFGを活用しています。この論文では、以下のような属性を持つプロンプトを抑制するためにデモンストレーションをキュレーションしています。

  • 一貫性のないシーンの説明
  • 曖昧または矛盾する詳細
  • 過度に冗長または支離滅裂な文章
  • 貧弱な芸術的構成
  • 文法およびスペルの誤り

CFGとネガティブプロンプトを組み合わせることで、LaDiが生成するプロンプトを洗練させ、芸術的な欠陥を最小限に抑え、創造的な可能性を最大化しています。これらの技術で作成されたプロンプトを使用して生成された画像は、一貫性、関連性、美的品質において顕著な向上を示しています。 

文法ベースのサンプリング

大規模言語モデルは多くのタスクでフューショット学習の能力を示していますが、構造化された出力を生成することは依然として挑戦的な取り組みです。この制限は、Stable Diffusionのようなテキストから画像へのジェネレーターに対して正確なテキストプロンプトを作成しようとする際に特に顕著になります。この問題に対処するために、デコーディングプロセス中に形式文法ベースのサンプリングを活用し、非常に効果的なプロンプトを作成しています。形式文法の制約をデコーディングプロセスに豊かにすることで、Stable Diffusionプロンプト生成のような特化したタスクに不可欠な事前定義された構造に適合するシーケンスを生成するようにしています。

この論文では、Stable Diffusionプロンプトを生成するために特別に調整された文脈自由文法(CFG)をLaDiに構築しています。この文法は、シーンの要素、それらの属性、および関係を指定することを目的としています。これらはStable Diffusionがより正確で関連性の高い画像を生成するための指針となります。以下にサンプルを示します。

まずサンプル形式文法Gを定義します。これは以下から構成されます。

  • 非終端記号のセット N = {S, Element, Attribute, Relation}
  • 終端記号のセット T = {"cat", "dog", "sitting", "jumping", "next to", "above"}
  • 生成規則のセット P
  • 開始記号 S

そして、生成規則Pは以下のように表現できます。

  1. S → Element
  2. S → Element Attribute
  3. S → Element Attribute Relation Element
  4. Element → "cat" | "dog"
  5. Attribute → "sitting" | "jumping"
  6. Relation → "next to" | "above"

このフレームワークは、デコーディングプロセス中にCFGルールを活用するインクリメンタルパーサーを使用しています。各デコーディングステップで、パーサーは文法を参照して、どのトークンが有効な続きとして機能できるかを確認します。これにより、シーケンス空間をCFGルールに従うものにのみ絞り込みます。

例えば、部分的に生成されたシーケンスが「cat sitting」である場合、パーサーはCFGを参照し、関係の非終端記号で指定されているように「next to」、「above」のセットからトークンを続けることが唯一の有効な続きであると認識します。この方法で、「cat sitting jumping」のようなプロンプトはフレームワークによって無効とされ、より高品質なプロンプトを保証します。

このCFGを使用して生成される有効な文字列(またはプロンプト)の例は「cat sitting next to dog」であり、Stable Diffusionはこれを使用して犬の隣に座っている猫の画像を作成できます。

以上、ここまで紹介してきたように、様々なプロンプト技術を適用することで、高い創造性と精度を持った画像生成を実現しています。この論文では、この記事で紹介した他にも適用技術について詳細な紹介をしています。

まとめ

この論文では、大規模言語モデルを駆使した革新的な手法を用いて、テキストから画像への変換技術を一新する試みを紹介しています。Stable Diffusionをはじめとするジェネレーターに対し、知的プロンプティングや制約付きデコーディングを施すことで、画像生成の質を格段に向上させることが可能になります。「LaDi」と名付けられたアートディレクター機能を中心に、画像生成プロセスをより関連性の高い、芸術的に優れたものにする手法を提案しています。

LaDiは、外部情報の取り込み、特定分野へのファインチューニング、プロンプトの詳細化、ネガティブプロンプトの活用など多岐にわたる技術を駆使し、高い創造性と精度を持った画像生成を実現しています。これにより、従来の技術で難しかった意図した概念や美学に基づく正確な画像の生成が可能になり、大規模言語モデルを用いることで、不十分なプロンプトに起因する問題を大きく軽減できています。

この論文で提案するフレームワーク「LaDi」は、クリエイティブなビジョンと実用的なニーズに応える、カスタマイズ可能な高品質な画像を生成することができます。さらなる発展のために、テキスト以外のモダリティの統合、新しいテキストデコードや画像拡散アルゴリズムの試験、新たにリリースされる高度なモデルの採用など、様々な改善も期待されます。この取り組みにより、テキストから画像への生成技術は、今後さらに進化を続けるでしょう。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする