最新AI論文をキャッチアップ

画像生成の可能性を広げる「DiffusionGPT」、人間のフィードバックと大規模言語モデルの融合によるオールインワンソリューション

画像生成の可能性を広げる「DiffusionGPT」、人間のフィードバックと大規模言語モデルの融合によるオールインワンソリューション

Large language models

3つの要点
✔️ オールインワンフレームワーク「Diffusion-GPT」の提案:大規模言語モデルを用いて、様々な生成モデルを一つのフレームワークに統合し、多様なプロンプトに効率的に応答するシステムを開発。プロンプトの意図を理解し、適切なモデルを選択する能力を持ち、幅広いアプリケーションで利用可能。
✔️ 人間のフィードバックの統合:人間のフィードバックを取り入れ、生成プロセスをさらに改善することが可能。ユーザーの好みに合わせたカスタマイズが可能となり、生成される画像の品質と適合性が向上。
✔️今後の改善計画:Diffusion-GPTは高品質な画像生成において顕著な結果を示しているが、制限も存在。研究チームはフィードバック駆動の最適化、モデル候補の拡張、タスクの多様化など、システムの改善を進める。

DiffusionGPT: LLM-Driven Text-to-Image Generation System
written by Jie QinJie WuWeifeng ChenYuxi RenHuixia LiHefeng WuXuefeng XiaoRui WangShilei Wen
(Submitted on 18 Jan 2024)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

画像生成技術は、近年、目覚ましい進化を遂げています。特に、DALLE-2やImagenのような先進的なモデルは、テキストプロンプトから鮮明な画像を生成し、大きな注目を集めています。しかし、これらのモデルはオープンソースではないため、その可能性を広く探求し、活用する機会は限定的です。このギャップを埋める形で、Stable Diffusionが登場しました。

Stable Diffusionはオープンソースの拡散モデルであり、画像生成、編集、スタイル変更など、多様なアプリケーションで革新的な可能性を示しています。Stable Diffusionの進化は、特定の技術開発だけでなく、CivitaiやLibLibAIのようなコミュニティプラットフォームを通じて、デザイナーやクリエイターの協力と議論を促進することにも貢献しています。

しかし、現在のモデルにはまだ解決すべき課題が存在しています。SD1.5のようなモデルは汎用性には優れていますが、特定の領域での性能が劣ることがあり、プロンプトの多様性への適応も困難です。これらの課題に取り組むための一つの解決策として、この論文では「DiffusionGPT」を提案しています。下図はDiffusionGPTの概要です。

DiffusionGPTは、大規模言語モデルを利用し、様々な生成モデルを統合することで、多様なプロンプトに対応し、よりリアルな画像生成を可能にしています。このシステムは、モデルの選択をガイドし、人間の好みに合わせて調整するために、人間のフィードバックを活用します。

DiffusionGPTは、多様な入力に適応し、特定の専門知識を持つモデルの選択を容易にすることで、生成プロセスを大きく前進させます。オールインワンのシステムとして、このフレームワークは幅広いアプリケーションでの使用に適しており、画像生成分野における新たな可能性を開くものです。この進化は、研究者や技術者だけでなく、クリエイターのコミュニティにとっても、新たな創造の機会を提供することでしょう。

DiffusionGPTの概要

DiffusionGPTは、多彩なプロンプトに基づいて高品質な画像を生成することを目的としたオールインワンシステムです。下図はDiffusionGPTのワークフローです。このシステムは、入力されたプロンプトを精査し、最適な結果を出力する生成モデルを見つけ出します。高い汎用性、利便性、そして実用性を兼ね備えていることが特徴です。

DiffusionGPTは、大規模言語モデルとHugging FaceやCivitaiなどのオープンソースコミュニティから提供されている様々な専門分野の生成モデルを組み合わせたものです。システム全体のワークフローをコントロールするコアとして大規模言語モデルが機能し、プロンプト解析、モデル構築・検索のための思考の木(Tree of Thought)の作成、人間のフィードバックによるモデル選択、、最終的な生成実行の4段階から成り立っています。

プロンプト解析は、DiffusionGPTにおける中心的な役割をになっています。大規模言語モデルを用いて、入力されたプロンプトから重要なテキスト情報を抽出・分析しています。ユーザー入力の複雑性を踏まえると、プロンプトを正確に解析することは、望まれる内容を効率的に生成する上で欠かせません。このエージェントは、プロンプトベース、指示ベース、インスピレーションベース、仮説ベースなど、多種多様なプロンプトに対応しています。

  • プロンプトベース:入力全体がそのまま生成のためのプロンプトとして活用されます。例:「犬」の入力は、「犬」のプロンプトで生成します。
  • ガイドベース:ガイドの主要部分を抽出し、それを生成のプロンプトとして使用します。例:「犬の画像を生成して」の入力は、「犬の画像」として認識されます。
  • インスピレーションベース:希望する対象の主題を抽出し、それを生成のプロンプトとして用います。例:「ビーチを見たい」という入力は、「ビーチ」がプロンプトとして認識されます。
  • 仮説ベース:仮説条件とその条件に基づく行動の対象を抽出し、生成のプロンプトとして利用します。例:「もし玩具をくれたら、とても嬉しく笑うよ」という入力は、「玩具と笑顔」がプロンプトとして認識されます。

これらのプロンプトの形式を識別することで、プロンプト解析のエージェントはDiffusionGPTがユーザーが生成したいコンテンツの核心を正確に理解し、不要なテキストの影響を減少させることを可能にしています。このプロセスは、適切な生成モデルを選択し、高い品質の生成結果を得るために重要です。

モデル構築・検索のための思考の木(Tree of Thought、TOT)の作成も重要なプロセスです。プロンプトが解析された後、希望する画像を生成するために適切なモデルを広大なライブラリから選出することが次の課題となります。しかし、利用可能なモデルの数が膨大であるため、それらをすべて大規模言語モデルに一度に供給して選択することは非効率です。さらに、異なるモデル間で生成空間の類似性が見られる場合、モデルライブラリ全体から一つのあいまいなマッチを通じて最適なモデルを特定することは困難です。

これに対応するために、思考の木(TOT)の概念を基にしたモデルツリーを活用することを提案しています。これにより、モデルの候補群を絞り込み、選択プロセスの精度を高めることができます。

モデル構築のための思考の木(TOT)は、全モデルのタグ属性を基に自動的にモデルツリーを構築する役割を果たしています。モデルのタグ属性をシステムに入力すると、それらから科目ドメインとスタイルドメインを基に潜在的なカテゴリが抽出・整理されます。スタイルカテゴリは科目カテゴリ内のサブカテゴリとして組み込まれ、二層の階層構造のツリーが形成されます。このプロセスを通じて、すべてのモデルが適切な葉ノードへ割り当てられ、総合的なモデルツリーが完成します。新しいモデルが加わるごとに、このツリーは自動的に更新され、新たなモデルを適切な位置に組み込むことができます。

モデル検索のための思考の木(TOT)は、与えられたプロンプトに最も適合するモデル群を見つけ出すプロセスです。幅優先探索法を用いて、各段階で最も適切なサブカテゴリを評価します。プロンプトとの一致度が最も高いカテゴリを特定することで、次の葉ノードへの候補群を絞り込みます。この反復的な探索は、最終的な候補モデル群を導き出すまで続けられ、これが次のモデル選択ステップの基盤となっています。

次のモデル選択は、生成を望む画像に最も適したモデルを、前段階で絞り込んだ候補群から選び出すプロセスです。この候補群は、入力されたプロンプトとの一致度が比較的高いモデルを含むモデルライブラリの一部を代表しています。しかし、オープンソースコミュニティから得られる情報は限られており、大規模言語モデルに詳細なモデル情報を提供しつつ最適なモデルを選択する処理は困難を伴います。これに対応するために、DiffusionGPTでは、人間のフィードバックを取り入れ、アドバンテージデータベース技術を活用することで、モデル選択プロセスを人の好みに沿った形で行うエージェントを提案しています。

アドバンテージデータベースには、1万件のプロンプトに基づく全モデル生成結果のスコアを計算し保存する報酬モデルが使用されています。入力プロンプトが与えられた際には、それと1万件のプロンプト間の意味的な類似度を算出し、最も高い類似度を示す上位5件のプロンプトを特定しています。続いて、モデル選択エージェントはオフラインデータベースからこれらのプロンプトに対する各モデルの事前評価されたパフォーマンスを抽出し、選ばれた各プロンプトに対して最も優れた5つのモデルを選択しています。この手順により、5×5、つまり25個のモデル候補が生み出されています。 

次いで、エージェントは「モデルの思考の木」段階で同定された候補セットとこのモデルセットを照らし合わせ、出現頻度が高くランキング上位のモデルに着目しています。これらが最終的に生成モデルとして選出されます。このアプローチにより、生成過程における人間の好みを反映させつつ、最適なモデルを選択することが可能となります。

適切なモデルが選ばれた後、その生成モデルを活用して、選出されたコアプロンプトを基に望む画像を作り出します。

画像生成のプロセスをさらに高めるために、プロンプト拡張エージェントが導入されています。このエージェントは、選択されたモデルに関連するプロンプトの例を活用して、入力されたプロンプトを自動で充実させます。

プロンプトの例と入力プロンプトは、共にインコンテキスト学習の枠組み内で大規模言語モデルへ送信されます。この際、エージェントは、プロンプトの例に見られる文のパターンを踏襲し、入力プロンプトに詳細な語彙と豊かな記述を加えます。

例えば、「笑っている女性の画像、ファッション雑誌の表紙」という入力プロンプトが、「青い豊かなエイリアンの雨林で花と鳥に囲まれた、ファンタジー溢れるファッション写真の女性アバターのポートレート」というような具体的なシナリオを含む例に基づいて拡張された場合、プロンプト拡張エージェントはそれを「雑誌の表紙の女性は喜びにあふれ、輝く目で笑っています。彼女は曲線美を強調する洗練された服装をしており、その髪型は彼女の魅力を引き立てます」のように、より具体的で表現豊かな形にします。この拡張によって、最終的に生成される画像の品質を向上させています。

下図は、ChatGPTとの対話中のプロンプトの詳細です。 ChatGPTに入力される前に、スロット{}は対応するテキスト値に一律で置き換えられます。

実験

この論文では、大規模言語モデルとしてOpenAI APIを通じてアクセス可能なChatGPTのtext-davinci-003バージョンを中核のコントローラーとして採用しています。レスポンスのガイドにはLangChainフレームワークを活用し、生成出力の制御と方向付けを行っています。実験に使用した生成モデルは、CivitaiやHugging Faceコミュニティから選出された多様なモデルで、これらのプラットフォームで利用可能なさまざまなタイプやスタイルの中から最も人気のあるモデルを選択しています。

定性的な実験結果です。まずはSD1.5を基準モデルとして、DiffusionGPTの生成能力を包括的に評価しています。SD1.5は多くの専門コミュニティモデルの基礎となっています。この論文では、意味的一致性と画像の芸術性の2つの主要な側面において4つの異なるプロンプトタイプを比較分析しています。 

分析の結果、基準モデルでは「男性、シェフ、子供、おもちゃの国」といったテーマにおいて、特に意味的な詳細の不足や人間に関する対象の表現に関して課題が明らかになっています。これに対し、DiffusionGPTはこれらの制約を克服し、入力プロンプト全体の意味情報を捉えた対象領域のより完全な表現を実現しています。「口笛を吹きながらピアノを調律する男性」や「子供たちが雪だるまを作り、雪合戦を楽しむ雪のワンダーランド」といった例は、DiffusionGPTが広範なコンテキストを包括する能力を示しています。また、「星空の下で優しい瞬間を共有するロマンチックなカップル」といったプロンプトでは、人間に関するオブジェクトに対して、より詳細で正確な画像を生成することに長けていることが証明されています。

次は、SDXLを基準モデルとして、DiffusionGPTの生成能力を包括的に評価しています。公開されている汎用生成モデルの技術進歩に伴い、新しく改良されたSDXLが、顕著な生成結果を示す先進的なアプローチとして注目を集めています。この論文では、このSDXLを基盤とし、様々なオープンソースコミュニティモデルを組み込んだ強化版を開発することで、DiffusionGPTを一層充実させています。システムの性能評価を行うために、SDXLとの比較検証を実施しています。結果を下図のようになっています。

全ての生成画像は1024x1024の高解像度であり、比較分析のために4種類の異なるプロンプトが用いられています。

詳細な分析により、SDXLは一部のケースにおいて意味情報の損失を示すことがわかっています。特に「3Dタイガー」や「飛ぶ車」といったプロンプトに関する生成結果では、細部の正確さが不足している場合があるようです。これに対して、DiffusionGPTは、より精密かつ視覚的に魅力的な表現の生成に優れています。特に、「漫画の猫が描かれた白いタオル」の生成や、「星空」のような情景の描写は、DiffusionGPTの能力を際立たせる例となっています。

次は定量的な結果です。結果は下表のとおりです。ユーザーの好みと下表に示された定量的な結果との一致は、DiffusionGPTの堅牢性と有効性を示すものと言えます。さらに異なる生成結果を評価するために、美学的予測モデルと人間のフィードバックに関する報酬モデルを使用しています。基本バージョンと基準モデルSD1.5との効果を比較することで、下表の結果は、画像報酬と美学スコアの観点で、DiffusionGPTがSD1.5を上回り、それぞれ0.35%と0.44%の改善を達成していることがわかります(HF:Human Feedback)。

アブレーションスタディ:思考の木と人間のフィードバック、プロンプト拡張の効果

思考の木と人間のフィードバックによる品質向上:この論文では、設計したシステムコンポーネントの効果を明らかにするため、様々なモジュールを取り入れた際の影響を視覚的に分析しています。ランダムに選択されたモデルを用いた場合、入力プロンプトとの不一致や、意味の不連続性を伴う画像が数多く生成されることが判明しています。しかし、思考の木(TOT)と人間のフィードバック(HF)の両モジュールを段階的に導入することで、生成画像の品質が大幅に向上することが確認されています。TOTとHFを組み込んだ場合、画像は入力プロンプトとの意味的整合性、現実感、そして美的魅力の点で顕著な改善をしています。この結果は、思考の木と人間のフィードバックを統合することによる、より優れたモデル選択への我々のアプローチの有効性を示しています。

プロンプト拡張の有効性:プロンプト拡張エージェントの影響を検証するために、オリジナルのプロンプトと拡張プロンプトを用いた生成結果を比較しています。拡張プロンプトは、希望する画像に関するより豊富で詳細な情報を提供することを目的として設計されています。その結果、拡張プロンプトを使用した画像は、美学と細部のレベルにおいて顕著な改善を示しています。詳細な情報を加えたプロンプトは、視覚的に魅力的で芸術的に洗練された画像を生み出す能力を高めます。この調査は、プロンプト拡張が生成プロセスにおいて重要な役割を果たすことを裏付けるものであり、よりリアルで詳細な生成物へと導く一因となります。

ユーザースタディ:生成画像に対する人間の好み

生成された画像に対して、人々がどのような評価を下すかを明らかにするため、ベースラインモデルと提案モデルを比較検証するユーザースタディを実施しています。この検証では、PartiPromptsから取り出した画像キャプションを利用し、ランダムに選んだ100個のプロンプトごとに4枚の画像を生成しています。次に、20名の参加者からこれらの画像に対するフィードバックを収集し、画像の品質や優位性について評価してもらっています。このプロセスを通じて、SD15およびSDXLの各ベースモデルについて約400の評価が集まっています。

ユーザースタディの結果は、下図のとおりです。参加者が一貫して提案モデルが生成した画像を好む傾向にあることが明らかになっています。これらの画像は、ベースラインモデルと比較して高い品質や優れた特性を有していると評価されています。このユーザースタディは、提案モデルが生成する画像が実際の人々の好みに合致すること、そしてその優位性を示す有力な根拠を示しています。

まとめ

この論文では、「Diffusion-GPT」という優れた生成モデルをシームレスに統合し、多様なプロンプトを効率的に解析するためのオールインワンフレームワークを提案しています。Diffusion-GPTは、大規模言語モデルを駆使してプロンプトの意図を把握し、状況に応じて最適なモデルを選定することができます。このフレームワークは、多様なプロンプトやドメインにわたって優れたパフォーマンスを実現するだけでなく、人間のフィードバックを取り入れることもできます。Diffusion-GPTは、追加のトレーニングを必要とせず、容易に統合可能な、効率的かつ効果的な解決策を提供しています。

しかしながら、Diffusion-GPTは高品質な画像生成において顕著な結果を示していますが、いくつかの制約もあります。研究チームは、今後、次のような改善を予定しているとしています。

  • フィードバック駆動の最適化:言語モデルの最適化プロセスにユーザーフィードバックを直接取り入れ、より洗練されたプロンプト解析とモデル選択を実現する。
  • モデル候補の拡張:利用可能なモデルの範囲を広げ、より印象的な結果を出すための生成空間を拡大する。
  • タスクの多様化:テキストから画像への生成にとどまらず、制御可能な生成、スタイル移行、属性編集など、さらに多岐にわたるタスクへの応用を目指す。

これらの取り組みにより、Diffusion-GPTの能力をさらに拡張し、より広範な応用可能性が探求されることが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする