T2I-Adapter：テキストから画像への変換技術の最前線

Computer Vision 2024年01月25日

3つの要点
✔️ T2Iアダプターは、生成に関する暗黙的な知識を活用し、制御を向上させることを目指します。
✔️ 低コストのアダプターモデルは、新しい機能を学習するのではなく、T2Iモデルの条件情報と整合性を学習し、軽量で効果的な制御を提供します。
✔️ 提案されたT2Iアダプターは、生成品質と制御性の両面で優れており、将来の研究ではマルチモーダルな制御手法の進化が期待されています。

T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models
written by Chong Mou, Xintao Wang, Liangbin Xie, Yanze Wu, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie
(Submitted on 16 Feb 2023 (v1), last revised 20 Mar 2023 (this version, v2))
Comments: Tech Report. GitHub: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Multimedia (cs.MM)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文は、大規模なテキストから画像に変換するモデルに焦点を当てており、その卓越した生成能力と同時に、モデルが正確な指示を受け付ける難しさに注目しています。具体的には、モデルが暗黙的に学習した特徴を利用して、生成プロセスをより詳細に制御する手法が提案されています。

提案された手法では、大規模なモデルをそのままにしておきながら、モデルが内部で学んだ知識を外部からの指示に活用できるようにするためのシンプルで軽量なアダプターを導入しています。これにより、異なる条件に対応するために複数のアダプターをトレーニングし、生成される画像の色や構造などを詳細に制御できるようになります。

最終的に、提案されたアダプターは非常に使いやすく、様々な状況で魅力的な特性を発揮します。多くの実験により、このアダプターが優れた画像生成の能力を示しています。簡単に言えば、この論文では、テキストから画像に変換するモデルに、より詳細な指示が可能なアダプターを組み込む手法が紹介されています。

上図は、提案されたT2Iアダプターに関するものです。このアダプターは、元のT2Iモデルに対して追加のガイダンスを提供するシンプルで小規模なモデルであり、ネットワークトポロジーや生成能力にほとんど影響を与えません。T2Iアダプターを利用することで、元のT2Iモデルでは難しいより想像力豊かな結果を生成することが可能です。さまざまなガイダンス、例えばカラーや深度、スケッチ、セマンティックセグメンテーション、キーポーズなどを活用でき、これによりローカル編集や構成可能なガイダンスが実現されます。

導入

この論文では、テキストから画像を生成するモデル（T2Iモデル）について話しています。大量のデータと計算能力を使ってこのモデルを訓練することで、指定されたテキストやプロンプトに基づいて高品質な画像を生成することができるようになりました。生成された画像にはテクスチャやエッジなどの細かい情報が含まれ、意味のある内容も表現できます。

しかし、生成された結果は特定の指示やプロンプトに依存しており、一般のユーザーがコントロールするのが難しいという問題があります。一般の人が使う場合、生成される結果は予測不可能で制御が難しくなります。提案されている手法は、モデルが暗黙的に学習した情報を取り出し、それを使って生成プロセスをより具体的に制御できるようにしようとしています。

そのために、小さなアダプターモデルを導入し、モデル内の知識と外部からの制御信号を調整して、生成結果を改善しようとしています。提案されたアダプターは、追加のネットワークとして機能し、元のモデルのトポロジーや既存のモデルに影響を与えず、シンプルで小さく、柔軟で使いやすいものです。

この方法を使えば、異なる条件に対応するために異なるアダプターをトレーニングし、生成結果に対する制御を向上させることができます。これにより、一般のユーザーでも簡単に使えるようになり、生成される結果が予測可能で安定するようになります。提案されたアダプターは、効果的で柔軟な制御機能を提供し、広範な実験において有望な結果を示しているとされています。

上図は、シンプルなT2Iアダプターに関するもので、以下の特徴が強調されています。T2Iアダプターは、元のネットワークトポロジーや生成能力に影響を与えず、容易に導入でき、約7,700万のパラメータと3億のストレージを持つ小規模なモデルであり、効率的な運用が可能です。柔軟性があり、異なる制御条件に対応するために複数のアダプターが提供され、これらを組み合わせることで同時に複数の条件を制御し、多様な生成が可能です。さらに、カスタムモデルに容易に統合でき、様々な状況で利用可能な一般的な特性を持っています。これにより、T2Iアダプターがシンプルでありながらも機能的で柔軟性があり、実用的な特性を有していることが示されています。

実験

実験では、8つの画像をまとめて学習する「バッチサイズ8」で、10回の「エポック」（学習のイテレーション）を行いました。学習率には「1×10^(-5)」の値を使い、Adamと呼ばれる最適化アルゴリズムを利用しました。この学習プロセスは、4つのNVIDIA Tesla GPUを使用して3日以内に完了できるほど効率的でした。

実験では、異なる条件による画像生成を試みました。例えば、スケッチやセマンティックセグメンテーションなどの条件を使って画像を生成しました。これにより、生成される画像に特定のガイダンスが与えられ、より制御可能な結果が得られました。その結果、他の最先端の方法よりも著者たちの方法が鮮明で、元の画像に似ていることが確認されました。

実験では、生成された画像の品質を定量的に評価するためにFID（生成画像と実際の画像の違いを測る指標）やCLIPスコア（生成画像とテキストの関連性を評価する指標）を使用し、著者たちの方法が有望な性能を示していることを確認しました。

さらに、この手法は単一のアダプターだけでなく、複数のアダプターを組み合わせても利用でき、その組み合わせにより多様な画像生成タスクが実現できることも示されました。この手法は、トレーニング済みのモデルにアダプターを追加するだけで、異なるモデルや新しいバージョンでも利用できる柔軟性を持っています。

最後に、この手法が小さいGPUでも高い制御機能を提供することが確認され、効果的な制御ができる一方で、モデルの複雑性を低減できることも示されました。これにより、より広範なアプリケーションで利用できる汎用的な手法が開発されました。

著者たちの手法と他の手法（SPADE, OASIS, PITI, SD）との比較の視覚化が行われています。はっきりとした結果として、著者たちの手法が他の手法に比べてアライメントと生成品質の両方で優れていることが示されています。

単一アダプター制御の視覚化が行われています。著者たちが提案するT2Iアダプターを使用することで、SDモデルは、カラーマップ、スケッチ、深度マップ、セマンティックセグメンテーションマップ、深度、およびキーポーズに条件付けされた高品質の画像を生成できます。

スケッチアダプターの画像編集機能が視覚化されています。同時に、比較のためにSD モデルの修復結果も示されています。

アダプターのコンポーザブル制御が視覚化されています。具体的には、最初の行が深度 + キーポーズ、2行目がスケッチ + カラーマップを示しています。

T2IAdapterの一般化可能な機能が視覚化されています。スケッチアダプターはSD-V1.4でトレーニングされ、SD-V1.5およびカスタムモデル（Anything-V4.0など）でも適切に実行できます。

T2Iアダプターの基本バージョン、小型バージョン、および小型バージョンの生成品質が比較されています。これらすべてが生成品質とコントロール能力の両方で魅力的であることが示されています。

結論

この研究では、T2Iアダプターが暗黙的に学習した機能を明示的に利用し、生成をより正確に制御することを目指しています。低コストのアダプターモデルは、新しい能力を学習するのではなく、事前トレーニングされたT2Iモデルの条件情報と内部知識との整合性を学習し、効果的な制御を実現します。このシンプルで軽量な構造のT2Iアダプターは、事前トレーニングされたT2Iモデルの生成能力に影響を与えず、空間色の制御や精緻な構造制御に幅広く適用でき、複数のアダプターを簡単に構成して多条件制御を可能にします。さらに、一度トレーニングすると同じT2Iモデルから微調整されている限り、T2Iアダプターをカスタムモデルで直接使用できます。

結果として、提案されたT2Iアダプターは優れた制御と有望な生成品質を達成し、広範な実験でその有効性が実証されました。ただし、マルチアダプター制御の場合、ガイダンス機能の組み合わせを手動で調整する必要がある制約があります。将来の研究では、マルチモーダルな誘導情報の適応的な融合を検討し、より効率的で柔軟な制御手法の開発に向けて進化させることが期待されます。