3D透視幾何学の制約を活用した拡散モデルの強化
3つの要点
✔️ 遠近法の精度を強化するために、潜在拡散モデルのトレーニング プロセスに新しい幾何学的制約を導入します。
✔️ 制約を使用してトレーニングしたモデルの画像は、この制約を使用せずにトレーニングしたモデルより 69.6% の確率でより現実的に見えることを示します。
✔️ より幾何学的に正確な入力 (単眼奥行き推定など) の恩恵を受ける下流タスクは、RMSE で最大 7.03%、SqRel で 19.3% 向上することを実証します。
Enhancing Diffusion Models with 3D Perspective Geometry Constraints
written by Rishi Upadhyay, Howard Zhang, Yunhao Ba, Ethan Yang, Blake Gella, Sicheng Jiang, Alex Wong, Achuta Kadambi
(Submitted on 1 Dec 2023)
Comments: Project Webpage: this http URL
Subjects: Computer Vision and Pattern Recognition (cs.CV); Graphics (cs.GR)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
遠近法はアートでよく研究されていますが、最近の高品質画像生成手法では透視精度が不足しています。新しい生成モデルでは、幾何学的な制約を導入し、トレーニングプロセスを通じて遠近法の精度を向上させています。これにより、より現実的な画像が生成され、関連する深度推定モデルの性能も向上します。
導入
最近の画像生成技術により、研究者はテキストから画像への合成で創造力を発揮しています。これらのモデルは様々なテキストプロンプトから絵画や写真を生成できますが、物理的な制約を満たす能力には限界があります。手描きアートは透視幾何学を重視し、最近の生成モデルも透視精度を考慮することでフォトリアリズムを向上させます。物理的な制約を欠く潜在拡散モデルには新しい損失関数が導入され、生成された画像の物理的な精度とフォトリアリズムが向上します。透視法の正確さはシーンの一貫性やリアリズムに強く影響し、提案された透視損失を利用したモデルは、通常のモデルよりも現実的な画像を生成します。この新しい損失を用いた生成画像は、下流のタスクの精度にも有益であり、高度なモデルの性能向上を示唆しています。
関連研究
合成画像の生成
画像生成は高次元空間と多様性のために難しい課題です。敵対的生成ネットワーク(GAN)と変分自動エンコーダ(VAE)は一般的な手法であり、GANは高品質な画像生成が可能ですが、訓練が難しく、モードの崩壊が起きることがあります。最近は拡散モデルが注目され、拡散プロセスを逆にすることで高品質な画像を生成します。この手法にテキストのガイダンスを組み合わせ、逆プロセスを改善しました。しかし、多くの拡散モデルは事前分布とテキストエンコーダーに依存しており、物理的な正確さが保証されないため、本研究では画像生成に3Dジオメトリ制約を追加し、品質向上を目指します。
研究の特定のタスクは、エッジから画像への合成問題であり、拡散モデルはテキストプロンプトとエッジマップの両方で条件付けられます。この研究はエッジマップにアクセスせずに透視的に正確な画像を生成することに焦点を当て、一般的で少ない入力での高精度生成を追求しています。
コンピュータビジョンにおける消失点
消失点はコンピュータービジョンで広く使用され、カメラのキャリブレーションやシーンの理解、合成シーンの生成、SLAMテクニックなどで重要な役割を果たします。これに加えて、コンピュテーショナルフォトグラフィーでは遠近法も使用され、焦点距離やカメラ位置の編集、広角画像の歪み軽減などに応用されています。これらの技術の進化は、画像ジェネレーターのフォトリアリズムと下流タスクへの利益に寄与しています。
単眼の奥行き推定
単眼の深度推定には通常、画像と深度のペアのデータが必要であり、初期の研究から現在に至るまで、マルコフランダムフィールド、畳み込みニューラルフィールド、トランスフォーマーなどのアーキテクチャが採用されています。教師ありモデルはデータの収集が困難であり、合成データセットがよく利用されますが、Sim2Realギャップがあります。これに対処する手法も試みられていますが、一般的なタスクである単眼深度推定に加えて、データ形式が同じであるため、同じ手法が深度補完のタスクにも適用可能です。
視点の背景
線形の視点
遠近法はアートと写真の文脈で特に重要で、3D空間のオブジェクトを正確に描画するためのテクニックを指します。線遠近法はその中でも最も一般的で、3D空間内の平行な線が画像平面上で1つの点に収束する性質を利用します。通常、図面や画像には1~3つの消失点があり、これらがスタイルとビューを決定します。地平線は観察者の目の高さを示す水平線であり、通常、少なくとも1つの消失点がこの線上にあります。これらの原則は図2で視覚的に示されています。
画像における遠近法の一貫性
画像の消失点は、3D空間の平行線が交わる点を指すため、画像の遠近感を確認するのは容易ではありません。平行線のセットを含む画像では、それらの平行線を延長し、すべての線のペアが同じ点で交わることを確認することで、遠近法の一貫性を検証できます。
・自然な画像
ピンホールカメラの透視投影により、平行ではない平行線のセットはすべて同じ消失点に集まります。
・合成画像
深層学習によって生成された合成画像は、自然画像とは異なり、遠近感や物理的特性が無視されることがあります。これは、モデルの損失関数が主に画質やプロンプトに焦点を当てているためであり、図1(a)にその例が示されています。
生成された画像の透視精度の向上
生成された画像の透視精度向上のために、[Rombach et al. 2022b]および[Pinkney 2022]のコードを使用した微調整モデルがあります。これには、新しい項を追加した従来の損失関数と、グラウンドトゥルースの消失点を提供する特殊なデータセットを使用してトレーニングします。
潜在拡散モデルは順拡散プロセスと逆拡散プロセスを潜在空間で実行します。エンコーダーとデコーダーが導入され、潜在空間との変換を担当します。トレーニング損失は、画像の消失点から伸びる線をスイープし、その線を横切る画像の勾配の合計を計算することによって機能します。潜在拡散モデルにはパースペクティブ事前分布を追加するためのパースペクティブ損失項もあります。
高レベルでは、この損失は、図 3 に示すように、画像上の消失点から伸びる線をスイープし、その線を横切る画像の勾配の合計を計算することによって機能します。このアルゴリズムの疑似コードを次の図に示します。
新しい損失関数は、画像内の線に沿った領域がどれだけ「エッジ状」であるかを測定します。これは、遠近感の損失として導入され、画像再構築の品質を向上させるのに役立ちます。損失は画像内の消失点のセットに基づき、ランダムに選択された反復ごとに計算されます。エンドツーエンドで微分可能なPyTorchで実装されています。
実験
潜在拡散モデルのトレーニング
このモデルは、58 億 5,000 万の画像キャプション ペアのデータベースである LAION 5B でトレーニングされています。 この論文では、このモデルをベースライン モデルと呼びます。
・データセット
HoliCityデータセットを使ってベースラインモデルを調整しました。このデータセットにはロンドンで撮影された50,078枚の実際の画像と各画像の消失点情報が含まれています。MiDaSを使って各画像の深さを予測し、それを潜在拡散モデルの条件として利用しています。調整にはBLIPキャプションモデルを用いて画像ごとに生成されたキャプションが使われています。
・トレーニングの詳細
微調整モデルのコードは[Rombach et al. 2022b]に基づいており、元のコードは[Pinkney 2022]のものを改良しています。ベースラインモデルの損失関数を更新し、画像解像度512×512、学習率1e-6、𝜆=0.01でトレーニングしました。トレーニングは4つのRTX3090 GPUを使用して約12時間かかり、遠近感の損失は飽和状態になりました。テキストから画像への生成とともに、モデルは画像の欠損領域を修復するタスクも行い、提案された制約を適用して結果をLPIPSメトリクスで評価します。 LPIPSは、2つの画像の知覚的な類似性を測定するためにディープニューラルネットワークを使用します。
単眼奥行き推定モデルのトレーニング
新しい実験では、DPT-HybridとPixelFormerの単眼奥行き推定モデルをベースラインと微調整モデルから評価しました。これらのモデルは元々KITTIデータセットでトレーニングされ、SYNTHIA-ALとVirtual KITTI 2データセットから深度マップを使用して合成画像を生成しました。生成された画像には、BLIPを使用して生成されたキャプションが付属しており、vKITTIからのみ生成された画像で深度推定モデルをトレーニングしました。トレーニングにはDPT Hybridの場合はバッチサイズ16で19,500ステップ、学習率5e-6、PixelFormerの場合はバッチサイズ8で20,800ステップ、学習率4e-6を使用しました。これにより、All EnhancedはEnhancedモデルによって生成された155,000の画像、All BaseはBaselineモデルによって生成された画像の完全なセットを指します。
・テストセット
深度推定モデルは、一般的に使用されるKITTIデータセットでトレーニングされ、その性能はKITTIとDIODEの屋外サブセットで評価されます。KITTIデータセットからは、EigenらのテストセットとDIODEからの500枚の画像が使用されています。
・メトリクス
モデルの評価には、[Ranftl et al. 2021] の深度推定メトリクスが使用されます。これには、絶対相対誤差、二乗相対誤差、二乗平均平方根誤差、対数RMSE、およびしきい値𝜏でのしきい値精度が含まれます。
人間の主観的テスト方法論
研究者は、微調整されたモデルによる画像生成のフォトリアリズムをProlific Webサイトで人間の主観テストで評価しました。参加者はランク付けタスクを行い、ベースライン、アブレーション、および強化された画像の3つのセットのフォトリアリズムを比較しました。画像はHoliCityデータセットから取得され、深度マップに基づいて生成されました。50人の参加者が80セットの画像をランダムに評価し、タスクの完了までに最大90分の時間が与えられました。
アブレーション研究
研究者は、提案した制約の効果を評価するために2つのアブレーション研究を行いました。最初は、同じデータセットでベースラインモデルを微調整し、損失を更新しない条件でトレーニングしたモデル(損失/アブレーションなしモデル)。次に、消失点を条件として取り込んで損失なくトレーニングされるモデル。両方のモデルで同じデータセットを使用し、単眼奥行き推定モデルをトレーニングしました。人間の主観的テストと無損失モデルの修復タスクの両方でアブレーション研究が行われました。
結果
微調整された潜在拡散モデル
図5では、微調整されたモデルから生成されたいくつかの代表的な画像が示されています。この図では、拡散モデルの微調整に使用される深度マップが、ベースラインモデルと強化モデルから生成された画像と一緒に表示されています。ベースラインモデルの画像には、遠近法の精度に影響を与える曲線や歪みが見られ、特に高周波の詳細を正確に生成するのが難しい領域があります。図8では、ベースラインとモデルからの画像にパースラインが描かれています。
モデルからの画像には、より一貫したパースラインと正確な消失点が見られ、歪みが少ないです。ベースライン画像は歪みが多く、自然画像の分布から外れているように見えます。強化されたモデルは都市景観のデータセットで微調整されているが、他の自然や動物、屋内シーンの画像生成にも制限がないことが確認されました。代表的な画像は図6に示されています。
さらに、FID メトリクスを使用してこれらの画像を定量的に評価します [Heusel et al. 2017]。 この論文のモデルは、ベースライン モデルと損失なしモデルの両方を上回っています。
3つのモデル(ベースライン、アブレーション、拡張)の修復パフォーマンスを、HoliCity検証セットと風景データセットの両方で、定性的な結果(図7)と定量的な結果(表4)を使用して評価します。 LPIPSメトリクスは、知覚的な類似性を測定するために使用され、低い値ほど修復の性能が高いことを示します。
表4から分かるように、強化モデルは常にベースラインとアブレーションモデルを上回り、組み合わせたデータセットではベースラインに対して7.1%、アブレーションに対して3.6%の改善があります。
単眼の深さの推定
微調整された深度推定モデルのパフォーマンスを評価するために、定性的測定と定量的測定の両方を使用します。 定性的な比較を図 9 に示します。
・DPTハイブリッド
生成されたvKITTIデータセットを使用して、元のDPT-Hybridから微調整されたモデルは、KITTIテストセットとDIODE Outdoorテストセットのサブセットの両方で元のDPTハイブリッドモデルを上回りました。ベースラインモデルで生成された画像で微調整されたモデルのパフォーマンスも、DIODE Outdoorの1つのメトリック(SqRelを除く)を除いてすべて上回りました。特にDIODE Outdoorデータセットでは、元のDPT-Hybridモデルは5つのメトリクスでベースモデルを上回りますが、メトリクスなしでは著者のモデルを上回ります。著者のモデルは、RMSEで7.03%、SqRelで19.3%の改善を示し、ベースラインモデルと比較してはSqRelで3.4%、SiLogで2.2%の改善もあります。
図9では、元のDPTハイブリッドモデルと強化された拡散モデルによって生成された画像から微調整されたモデルとの比較が示されています。各セットには入力画像、グラウンドトゥルース深度マップ、元のモデルと拡張モデルの両方からのエラーマップが含まれており、各深度予測のRMSE値も表示されます。著者のモデルは高周波の詳細をより一貫してキャプチャし、RMSE値も低くなっています。
・ピクセルフォーマー
生成された vKITTI データセットと生成された完全なデータセットの両方を使用してベース PixelFormer を微調整し、DIODE Outdoor テスト セットで評価します。
ベースPixelFormerを拡散モデルの画像で微調整し、vKITTIデータセットと完全なデータセットの生成画像を使用して評価した結果、微調整モデルは全ての指標で元のモデルや他のトレーニングデータに基づくモデルを上回りました。特にデータセット全体でトレーニングされたモデルは、元のモデルと比較してSiLogで11.6%、ベースラインモデルと比較して2.4%の改善を達成しました。
人間の主観的テスト
主観的テストでは、強化モデルの画像がベースラインモデルよりも69.6%、アブレーションモデルよりも67.5%で写実的に見え、平均ランクもベースラインおよびアブレーションモデルよりも優れていました。結果から、提案された幾何学的制約が生成された画像のフォトリアリズム向上に寄与していることが示されました。
アブレーション研究
提案した制約の評価では、強化されたモデルとアブレーションモデルの比較を通じて、エッジとコーナーが一貫して改善されたことが示されています。 定量的な比較も行われ、強化された拡散モデルが特定の深度推定モデルにおいて改善を達成したことが確認されています(図 10 参照)。
提案された制約に基づく実験では、DPT-HybridとPixelFormerの強化モデルが、トレーニングデータに微調整されたモデルや損失なしモデルよりも優れていることが示されました。特に、RMSEで最大16.11%の改善があり、人間の主観的なテストでも写実性が向上しています。提案された制約が新しい画像の微調整ではなく、モデルの性能向上に寄与していることが強調されています。
表5によれば、強化されたモデルが生成した非建築シーンの画像は、FIDメトリックにおいてベースラインと無損失モデルを上回っています。低いFIDスコアが、生成画像の自然さやクオリティが向上していることを示しています。
考察
制限事項
アプローチの主な制限は、拡散モデルの微調整に消失点を含むデータセットが必要であり、その生成速度が遅いことです。また、主観的なテストでは改善が見られますが、実際の画像の詳細や物理的特性の正確性はまだ不十分です。
社会的影響
生成モデルの向上には懸念も伴います。合成画像のフォトリアリズム向上に伴い、悪意ある使用やツールによる識別への悪用のリスクが増加します。新たな制約の追加がこれらの懸念を軽減し、拡散モデルの悪用の可能性を低減することが必要です。
今後の取り組み
現在の研究は3Dジオメトリの遠近法に焦点を当てていますが、生成画像のリアリティには他の物理的プロパティも影響を与えます。例えば、照明と影の一貫性、物理的な法則の一貫性が挙げられます。将来の研究ではこれらの制約を追求し、物理法則を尊重し、フォトリアリズムと下流タスクのパフォーマンスを向上させるための探求が期待されます。
結論
1400年代の芸術家レオン・アルバータ・バティスティは、遠近法の基礎を築き、手描きのリアリズムを進化させました。この研究では、遠近法を潜在拡散モデルにエンコードする新しい幾何学的制約が初めて提案されました。これらの物理ベースの3D遠近制約の導入により、主観的テストと単眼奥行き推定のパフォーマンスが向上することが実証されました。
芸術の歴史的な進化が、AIによる画像生成に影響を与えるのは興味深いです。新しい制約の導入がフォトリアリズムとパフォーマンスにどのように寄与するか、今後の展開が期待されます。
この記事に関するカテゴリー