スプリアス特徴生成のためのTEXT-TO-IMAGE拡散モデルのファインチューニング

画像認識 2024年03月13日

3つの要点
✔️ スプリアス画像は分類器の信頼性を測定するのに役立つ
✔️ より多くのスプリアス特徴を見つけるためにインターネットから多くのスプリアス画像をフィルタリングするのは時間がかかる
✔️ TEXT-TO-IMAGE拡散モデルのファインチューニングで、スプリアス画像の生成方法を提案

Fine-Tuning Text-To-Image Diffusion Models for Class-Wise Spurious Feature Generation
written by AprilPyone MaungMaung, Huy H. Nguyen, Hitoshi Kiya, Isao Echizen
(Submitted on 13 Feb 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

深層ニューラルネットワーク（DNN）は、視覚認識、自然言語処理、音声認識などで最先端の成果を上げています。しかし、DNNの評価は容易ではなく、特に乳がんスクリーニングや自動運転などの重要な分野では、さらに重要です。

一般的に、画像分類器の性能は固定されたテストセットで評価されますが、実際の運用とは異なる可能性があります。たとえば、ImageNetのテストセットは実世界の性能を反映しません。

分類器をより良く評価するための最近注目されている方法の1つは、スプリアス特徴とスプリアス画像の使用です。スプリアス特徴は、単純に言えば、画像の主要な特徴と一緒によく現れる特徴として理解できます。

例えば、牛の画像にはよく草地があり、ハチドリの画像には赤サルビア花がよく含まれています。ここで、牛とハチドリは主要な特徴であり、草地と赤サルビア花はスプリアス特徴です。スプリアス特徴を持っている画像はスプリアス画像だと考えられます。

スプリアス特徴のみがクラスと関連付けられると、ショートカット学習の原因となります。例えば、赤サルビア花の特徴を使用してモデルがハチドリを分類する場合、赤サルビア花のみが写っている写真はモデルによって容易にハエと分類されるか、逆に赤サルビア花がなくハチドリだけ写っている写真はハチドリと分類することがあります。そのため、スプリアス特徴でDNNの評価は安全性の重要なアプリケーションにとって非常に重要です。

最近の研究では、ImageNetなどの大規模データセットからスプリアス特徴を検出し、「Spurious ImageNet」を紹介しました。しかし、Spurious ImageNetのすべての画像が、異なる分類器でスプリアス特徴を持たないことが判明しました（図1）。さらに、インターネットからスプリアス特徴を持つ画像をフィルタリングする作業は時間がかかります。

図１．スプリアス画像の例。Spurious ImageNetデータセットからのいくつかの画像は、「ハチドリ」として検出されたが、「スジグロシロチョウ」として分類された。

今回解説する論文では、Stable Diffusionの大規模なText-to-Imageのモデルを活用して、異なる分類器間でスプリアス特徴を持つ画像を生成することを提案しています。これは、Spurious ImageNetを補完することを目指しています。

手法

概要

特定のクラスの数枚のスプリアス画像が与えられた場合、異なる分類器間でこの特定のクラスに新たなスプリアス画像を生成することを目指します。図2は、提案されたText-to-Image拡散モデルのファインチューニングフレームワークを示しています。

このフレームワークはDreamBooth [Ruiz et.al, 2023]をベースにしていますが、DreamBoothとの主な違いは、新しい損失を追加して、テキストエンコーダーとノイズ予測器を共同でファインチューニングすることです。新しい損失は、スプリアスと非スプリアス画像の類似度から計算され、スプリアス特徴の生成を促進します。これらの詳細については、次のサブセクションで説明します。

Stable Diffusionと学習損失

拡散モデルは生成モデルの一種であり、拡散過程と逆拡散過程という２つのプロセスがあります。

拡散過程では、入力画像はガウシアンノイズになるまで少しずつノイズを追加します。このプロセスは、事前に定義され、逆拡散過程の教師ありデータとして使われます。一方、逆拡散過程は完全なノイズから、元の画像を復元できるまで徐々にノイズを除去します。

各ステップにおいて、その逆変換（追加したノイズの予測）を学習します。つまり、逆拡散過程の学習が完了した後、完全なノイズから画像生成が可能となります。

また、テキストの入力条件と組み合わせることで、Text-to-Imageの生成モデルの実現が可能です。Stable Diffusion [Rombach et.al, 2022] は、広く知られている大規模なText-to-Imageの拡散モデルであり、潜在空間での拡散モデルだと考えられます。

テキスト条件y（すなわち、テキストプロンプト）が与えられると、学習の損失関数は次のようになります。

ここで、ϵとϵ_θは追加したノイズと予測したノイズであり、τθはテキストのエンコーダです。

Stable Diffusionのパーソナライゼーション

被写体の画像が与えられた場合、パーソナライゼーションのアイデアは、被写体をStable Diffusionの出力領域に埋め込み、異なる文脈における被写体の新しい表現を合成することです。パーソナライゼーションの後、被写体の画像を新しく生成することが可能となります。

この論文のパーソナライゼーション手法は、Stable Diffusionを調整し、少数の参照画像にオーバーフィットさせたり、事前知識を失わずに、被写体に関する新しい情報を出力領域に統合することです。

このテクニックはDreamBoothと同様であり、図２のノイズ予測U-Netを、一意の識別子（例えば、[識別子]の花の写真）を含む参照画像とテキストプロンプトでファインチューニングします。事前知識を保持するために、式２のようにクラス固有の事前保存損失（PPL）を導入します。

x′は、[識別子]を含まないテキストプロンプト（例えば、[クラス]の写真）で事前学習Stable Diffusionから生成される画像です。式１と式２の損失関数から合成される全体の損失関数は次の式となります。ここで、λはハイパーパラメータです。

スプリアス特徴類似性損失

スプリアス特徴の生成を促すために、スプリアス特徴類似性損失(SFSL)も提案しています。

図２にも示しているように、参照用の画像と生成画像からスプリアス特徴を推定するために、学習済のモデルを使います。今回の解説する論文はSpurious ImageNetの学習済モデルを使っています。その特徴はクラスｋ、入力画像xとSpurious ImageNetの最終層の特徴ϕ(x)から、次の式で計算されます。

スプリアス特徴類似性損失(SFSL)は参照用の画像のスプリアス特徴と生成画像のスプリアス特徴のコサイン類似度S_Cから計算されます。

この損失はκハイパーパラメータで式３に合成して、式６のように提案手法の最終損失関数を得られます。

実験

データセットと分類器

実験では、Spurious ImageNetのデータセットを利用しました。これには100のクラスが含まれています。

各クラスには、解像度が367×367の75枚のスプリアス画像があり、合計で7,500枚の画像があります。上にも述べたように、Spurious ImageNetのすべての画像が、異なる分類器間で一貫してスプリアスであるわけではないことがわかりました。

そこで、t次の4つの分類器について、各テストクラスについて、すべてスプリアスとなる6つの画像を選択しました： ResNet-50（PyTorchのバージョン1と２）[He et.al, 2016]、ロバストResNet-50 [Croce et.al, 2022]、ViT-B/16 [Steiner et.al, 2022]。

スプリアス精度

各テストクラスから75枚の画像をサンプリングし、ResNet-50 V1およびV2、Robust ResNet-50、ViT-B/16の4つの分類器で、Spurious ImageNetと比較して、スプリアスクラスの精度を観察しました。生成された75枚の画像はランダムに選択されました。

表1には、スプリアス精度の結果がまとめられており、SIはSpurious ImageNetを示しています。"flagpole"を除くすべてのテストクラスで、生成された画像は異なる分類器間でよりスプリアス特徴を持っていました。これは、提案された方法が既存のImageNet分類器のスプリアスパフォーマンスを評価する際に、Spurious ImageNetに補完的であることを示しています。

提案された方法を使用することで、より頑健なスプリアステストデータセットを作成できます。

表1．提案手法の生成された画像とSpurious ImageNet（SI）のスプリアス精度（%）

本論文は大規模なText-to-Imageの拡散モデルを活用してスプリアス画像を生成するのは初めての試みです。そのため、他の手法との直接比較はできません。

ただし、DreamBoothに基づいて構築された手法であるので、ここで、DreamBoothとの比較を行いました。表2では、4つの分類器間で6つのクラスの平均的なスプリアス精度を比較しています。生成された画像は、DreamBoothとテキストエンコーダーを共同でトレーニングすることでよりスプリアス特徴を持つようになりました。

提案されたスプリアス特徴類似性損失（SFSL）を追加すると、スプリアス精度がさらに向上しました。ハイパーパラメータκは、クラスによって異なる影響を持つことが観察されました。したがって、目標クラスに基づいてκ値を調整する必要があるとわかります。

知覚的品質

最新の知覚画像品質評価メトリックであるTOPIQ [Chen et.al, 2023]を利用して、生成されたスプリアス画像の知覚品質を客観的に測定しました。

表3は、TOPIQスコアが各クラスの6枚の画像（すべてのトレーニング画像）と75枚の画像（生成された画像）について計算された客観的評価結果を要約しています。生成された画像のスコアは、「ハチドリ」と「コアラ」のクラスについては実際の画像に近いものでした。しかし、他のクラスではスコアが低かったです。

スプリアス生成画像の品質をさらに評価するために、次のサブセクションで主観評価を実施します。

主観的評価

10人のユーザー（研究者、学生、非技術者）を対象に、主観的評価を実施しました。各クラスから10枚のランダムな画像（実際のものと生成されたものの混合）を表示し、自然さに基づいて1から5の評価を求めました。

図3は、主観的評価結果を要約しています。平均して、46.33％のユーザーが実際の画像に最高評価である5（非常に自然）を与え、生成された画像には20％がそれを与えました。一部の生成画像が自然でリアルなものであることが示されています。

また、すべての6つのクラスの生成された画像を手動でチェックし、一部の画像には拡散アーティファクトが観察されました。図4は、Spurious ImageNetの画像と比較した選択された生成画像を示しています。ただし、生成モデルには生成の上限がないため、異なる構成で多くの画像をサンプリングして、満足できる画像を取得することができます。

図4．生成画像（2行目）とSpurious ImageNet（1行目）の例。赤ラベルは予測されたクラス、黒ラベルは真の被写体

終わりに

本論文では、Spurious ImageNetから数枚のスプリアス画像が与えられた場合、新しいスプリアス特徴類似性損失を活用してStable Diffusionを微調整することで、スプリアス画像を生成できることを示しています。

提案された手法では、多くの画像をフィルタリングしてスプリアス特徴を見つけるための時間を節約することができます。したがって、提案手法はスプリアス特徴テストデータセットの準備においてSpurious ImageNetを補完します。実験により、生成された画像が異なる分類器間でスプリアスであり、Spurious ImageNetの画像と視覚的に類似していることが確認されました。