T2I-Adapter:テキストから画像への変換技術の最前線
3つの要点
✔️ T2Iアダプターは、生成に関する暗黙的な知識を活用し、制御を向上させることを目指します。
✔️ 低コストのアダプターモデルは、新しい機能を学習するのではなく、T2Iモデルの条件情報と整合性を学習し、軽量で効果的な制御を提供します。
✔️ 提案されたT2Iアダプターは、生成品質と制御性の両面で優れており、将来の研究ではマルチモーダルな制御手法の進化が期待されています。
T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
written by Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie
(Submitted on 16 Feb 2023 (v1), last revised 20 Mar 2023 (this version, v2))
Comments: Tech Report. GitHub: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Multimedia (cs.MM)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
この論文は、大規模なテキストから画像に変換するモデルに焦点を当てており、その卓越した生成能力と同時に、モデルが正確な指示を受け付ける難しさに注目しています。具体的には、モデルが暗黙的に学習した特徴を利用して、生成プロセスをより詳細に制御する手法が提案されています。
提案された手法では、大規模なモデルをそのままにしておきながら、モデルが内部で学んだ知識を外部からの指示に活用できるようにするためのシンプルで軽量なアダプターを導入しています。これにより、異なる条件に対応するために複数のアダプターをトレーニングし、生成される画像の色や構造などを詳細に制御できるようになります。
最終的に、提案されたアダプターは非常に使いやすく、様々な状況で魅力的な特性を発揮します。多くの実験により、このアダプターが優れた画像生成の能力を示しています。簡単に言えば、この論文では、テキストから画像に変換するモデルに、より詳細な指示が可能なアダプターを組み込む手法が紹介されています。
上図は、提案されたT2Iアダプターに関するものです。このアダプターは、元のT2Iモデルに対して追加のガイダンスを提供するシンプルで小規模なモデルであり、ネットワークトポロジーや生成能力にほとんど影響を与えません。T2Iアダプターを利用することで、元のT2Iモデルでは難しいより想像力豊かな結果を生成することが可能です。さまざまなガイダンス、例えばカラーや深度、スケッチ、セマンティックセグメンテーション、キーポーズなどを活用でき、これによりローカル編集や構成可能なガイダンスが実現されます。
導入
この論文では、テキストから画像を生成するモデル(T2Iモデル)について話しています。大量のデータと計算能力を使ってこのモデルを訓練することで、指定されたテキストやプロンプトに基づいて高品質な画像を生成することができるようになりました。生成された画像にはテクスチャやエッジなどの細かい情報が含まれ、意味のある内容も表現できます。
しかし、生成された結果は特定の指示やプロンプトに依存しており、一般のユーザーがコントロールするのが難しいという問題があります。一般の人が使う場合、生成される結果は予測不可能で制御が難しくなります。提案されている手法は、モデルが暗黙的に学習した情報を取り出し、それを使って生成プロセスをより具体的に制御できるようにしようとしています。
そのために、小さなアダプターモデルを導入し、モデル内の知識と外部からの制御信号を調整して、生成結果を改善しようとしています。提案されたアダプターは、追加のネットワークとして機能し、元のモデルのトポロジーや既存のモデルに影響を与えず、シンプルで小さく、柔軟で使いやすいものです。
この方法を使えば、異なる条件に対応するために異なるアダプターをトレーニングし、生成結果に対する制御を向上させることができます。これにより、一般のユーザーでも簡単に使えるようになり、生成される結果が予測可能で安定するようになります。提案されたアダプターは、効果的で柔軟な制御機能を提供し、広範な実験において有望な結果を示しているとされています。
上図は、シンプルなT2Iアダプターに関するもので、以下の特徴が強調されています。T2Iアダプターは、元のネットワークトポロジーや生成能力に影響を与えず、容易に導入でき、約7,700万のパラメータと3億のストレージを持つ小規模なモデルであり、効率的な運用が可能です。柔軟性があり、異なる制御条件に対応するために複数のアダプターが提供され、これらを組み合わせることで同時に複数の条件を制御し、多様な生成が可能です。さらに、カスタムモデルに容易に統合でき、様々な状況で利用可能な一般的な特性を持っています。これにより、T2Iアダプターがシンプルでありながらも機能的で柔軟性があり、実用的な特性を有していることが示されています。
関連研究
ここでは、画像を生成するための複数の手法やモデルについてご紹介しています。まず初めに、GAN(Generative Adversarial Networks)と呼ばれる手法が登場し、ランダムなデータから素晴らしい画像を生成する方法について触れています。この手法は広く画像生成に利用されており、他にもいくつかの手法が存在しますが、それらにも触れています。
その後、条件つきの画像生成に焦点を当て、テキストや他の画像などが条件として組み込まれる手法について紹介しています。特に、テキストを利用して画像を生成するタスク(T2I生成)に焦点を当て、その中で注目を集めている手法について言及しています。拡散モデルと呼ばれる手法は、最近画像生成において成功を収めていることが紹介されています。
ただし、テキストだけでは画像生成に十分な情報を提供できないという問題も浮き彫りになっています。そこで、新しい発想としてT2Iアダプターが紹介されています。アダプターは、大規模なモデルに対して低コストで構造的なガイダンスを提供する手法として位置づけられています。これは、モデルの微調整をより効率的に行うための手法として有益です。
T2I-Adapter
この手法は、テキストから画像を生成する際に、より制御可能な機能を獲得することを目指しています。そのために、最近注目を集めている拡散モデルが導入されています。
この拡散モデルは、2つのステップから成り立っています。最初のステップでは、画像を特別な空間に変換して、それを元に戻せるように学習します。次に、修正されたデノイザーを使用して、その空間でノイズを取り除きます。これにより、クリーンな潜在特徴が生成され、最終的に画像が生成されるのです。
さらに、テキストを使用した条件部分も導入されています。つまり、生成される画像に対してテキストからのガイダンスを与えています。しかし、テキストだけでは十分な制御が難しい場合があり、それを解決するために提案されているのがT2Iアダプターです。
T2Iアダプターは、簡単で軽量な機能で、複数の条件をサポートできるように設計されています。これにより、テキストだけでなく、スケッチや色の情報など、様々な条件を使用して画像生成の制御が可能になります。
最後に、最適化のプロセスについても触れられています。これは、学習中にSDのパラメーターを修正し、T2Iアダプターを最適化するもので、トレーニングサンプルには元の画像、条件、そしてテキストが使用されています。
全体のアーキテクチャが2つの主要な構成要素から成り立っています。まず、1つ目は固定パラメータを使用して予めトレーニングされた安定した拡散モデルです。そして、2つ目はT2Iモデルの内部知識と外部制御信号を調整するためにトレーニングされた複数のT2Iアダプターが含まれています。これらのアダプターは調整可能なウェイトωを直接追加することによって構成され、右下隅にはT2Iアダプターの詳細なアーキテクチャが示されています。
複雑なシナリオにおいて、SDはテキストに応じて正確な結果を生成できません。対照的に、当社のT2IアダプターはSDに対して構造ガイダンスを提供し、妥当な結果を生成することができます。
DDIM推論サンプリングを初期段階、中間段階、後期段階の3つに均等に分割します。これらの段階でガイダンスを追加した結果を観察します。明らかに、反復が遅くなるほど、ガイド効果は小さくなります。
トレーニング中の3次サンプリングの効果が示されています。均一なタイムステップのサンプリングでは、特に色の制御においてガイダンスが弱いという問題がありますが、3次サンプリング戦略はこの弱点を修正できます。
実験
実験では、8つの画像をまとめて学習する「バッチサイズ8」で、10回の「エポック」(学習のイテレーション)を行いました。学習率には「1×10^(-5)」の値を使い、Adamと呼ばれる最適化アルゴリズムを利用しました。この学習プロセスは、4つのNVIDIA Tesla GPUを使用して3日以内に完了できるほど効率的でした。
実験では、異なる条件による画像生成を試みました。例えば、スケッチやセマンティックセグメンテーションなどの条件を使って画像を生成しました。これにより、生成される画像に特定のガイダンスが与えられ、より制御可能な結果が得られました。その結果、他の最先端の方法よりも著者たちの方法が鮮明で、元の画像に似ていることが確認されました。
実験では、生成された画像の品質を定量的に評価するためにFID(生成画像と実際の画像の違いを測る指標)やCLIPスコア(生成画像とテキストの関連性を評価する指標)を使用し、著者たちの方法が有望な性能を示していることを確認しました。
さらに、この手法は単一のアダプターだけでなく、複数のアダプターを組み合わせても利用でき、その組み合わせにより多様な画像生成タスクが実現できることも示されました。この手法は、トレーニング済みのモデルにアダプターを追加するだけで、異なるモデルや新しいバージョンでも利用できる柔軟性を持っています。
最後に、この手法が小さいGPUでも高い制御機能を提供することが確認され、効果的な制御ができる一方で、モデルの複雑性を低減できることも示されました。これにより、より広範なアプリケーションで利用できる汎用的な手法が開発されました。
著者たちの手法と他の手法(SPADE, OASIS, PITI, SD)との比較の視覚化が行われています。はっきりとした結果として、著者たちの手法が他の手法に比べてアライメントと生成品質の両方で優れていることが示されています。
単一アダプター制御の視覚化が行われています。著者たちが提案するT2Iアダプターを使用することで、SDモデルは、カラーマップ、スケッチ、深度マップ、セマンティックセグメンテーションマップ、深度、およびキーポーズに条件付けされた高品質の画像を生成できます。
スケッチアダプターの画像編集機能が視覚化されています。同時に、比較のためにSD モデルの修復結果も示されています。
アダプターのコンポーザブル制御が視覚化されています。具体的には、最初の行が深度 + キーポーズ、2行目がスケッチ + カラーマップを示しています。
T2IAdapterの一般化可能な機能が視覚化されています。スケッチアダプターはSD-V1.4でトレーニングされ、SD-V1.5およびカスタムモデル(Anything-V4.0など)でも適切に実行できます。
T2Iアダプターの基本バージョン、小型バージョン、および小型バージョンの生成品質が比較されています。これらすべてが生成品質とコントロール能力の両方で魅力的であることが示されています。
結論
この研究では、T2Iアダプターが暗黙的に学習した機能を明示的に利用し、生成をより正確に制御することを目指しています。低コストのアダプターモデルは、新しい能力を学習するのではなく、事前トレーニングされたT2Iモデルの条件情報と内部知識との整合性を学習し、効果的な制御を実現します。このシンプルで軽量な構造のT2Iアダプターは、事前トレーニングされたT2Iモデルの生成能力に影響を与えず、空間色の制御や精緻な構造制御に幅広く適用でき、複数のアダプターを簡単に構成して多条件制御を可能にします。さらに、一度トレーニングすると同じT2Iモデルから微調整されている限り、T2Iアダプターをカスタムモデルで直接使用できます。
結果として、提案されたT2Iアダプターは優れた制御と有望な生成品質を達成し、広範な実験でその有効性が実証されました。ただし、マルチアダプター制御の場合、ガイダンス機能の組み合わせを手動で調整する必要がある制約があります。将来の研究では、マルチモーダルな誘導情報の適応的な融合を検討し、より効率的で柔軟な制御手法の開発に向けて進化させることが期待されます。
この記事に関するカテゴリー