【GenAI-Arena】ユーザー投票で生成モデルを評価する新プラットフォーム

Large language models 2024年12月20日

3つの要点
✔️ ユーザーの好みに基づいて生成モデルをランク付けする初のオープンプラットフォーム「GenAI-Arena」を提案
✔️ ユーザー投票で生成モデルを評価し、画像生成、画像編集、動画生成の3つのタスクをサポート
✔️ ユーザーの投票データを「GenAI-Bench」として公開、研究コミュニティの発展を促進

GenAI Arena: An Open Evaluation Platform for Generative Models
written by Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
(Submitted on 6 Jun 2024)
Comments: 9 pages,7 figures
Subjects: Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

画像生成や画像編集の技術は急速に進化しており、アート作品の作成、医療画像の支援など、さまざまな分野で利用されています。このような進化の一方で、モデルを使いこなし、その性能を評価するのは依然として難しい課題となっています。従来の評価指標であるPSNR、SSIM、LPIPS、FIDなどは、特定の観点を評価する際には有用ですが、総合的な評価には課題があります。特に、美的感覚やユーザー満足度といった主観的な評価をするには課題があります。

こうした課題を解決するために、この論文では「GenAI-Arena」という新しいプラットフォームを提案しています。これは、ユーザーが画像を生成、比較し、好みのモデルに投票できるインタラクティブなプラットフォームです。GenAI-Arenaは、様々なモデルを比較するプロセスをシンプルにし、ユーザーの好みを反映したランク付けをすることによって、モデルの能力をより総合的に評価することができます。このプラットフォームは、テキストによる画像生成（Text-to-Image Generation）、テキストによる画像編集（Text-Guided Image Editing）、テキストによる動画生成（Text-to-Video Generation）など、幅広いタスクをサポートしています。また、透明性を確保するための公開投票プロセスも提供しています。

2024年2月11日以降、この論文では3つのマルチモーダル生成タスクに対して6,000票以上を収集しています。これらの投票をもとに各タスクのリーダーボードを作成しています。また、投票データを分析した結果、イロレーティング（Elo Rating）が一般的に有効であるものの、「簡単なゲーム」と「難しいゲーム」の間の不均衡によってバイアスが生じる可能性があることが分かりました。さらに、定量分析のケーススタディも実施し、ユーザーが複数の評価観点で投票を行うことで、出力の微妙な違いを識別し、イロレーティングの計算に正確な投票を提供できることを示しています。

さらに、生成された動画像コンテンツの品質を自動的に評価することは、難しい問題とされています。画像や動画には視覚品質、一貫性、整合性、アーティファクトなど、多くの繊細な評価観点があり、こうした多面的な性質が評価を難しくしています。また、Web上には教師データが少ないという現状もあります。そこで、この論文では、ユーザーの投票データをGenAI-Benchとして公開し、この分野のさらなる発展を促進することを目指しています。

様々な動画像の自動評価モデル（例：GPT-4o、Geminiなどのマルチモーダル大規模言語モデル）と人間の好みとの相関を計算し、それらの評価能力を評価しています。そして、最も優れたマルチモーダル大規模言語モデルであるGPT-4oでさえ、人間の好みとのピアソン相関係数が最大0.22程度であることが示されています。

GenAI Arenaは、3つの要素で構成されています。1つ目は、テキストによる画像生成（T2I）、画像編集（Editing）、テキストによる動画生成（T2V）のArenaで、コミュニティの投票を行い、好みのペアを取得しています。 2つ目は、リーダーボード（Leaderboard）で、この好みのペアを利用して、評価されたすべてのモデルのイロレーティングを計算しています。3つ目は、様々なマルチモーダル大規模言語モデル（評価モデル）を評価するためのGenAI-Benchです。

GenAI-Arena：設計と実装

GenAI-Arenaは、生成モデルの評価を直感的かつ総合的に行えるプラットフォームとして設計されています。テキストによる画像生成（T2I）、画像編集（Editing）、テキストによる動画生成（T2V）の3つの主要なタスクに焦点を当てています。各タスクには、下図のように投票システム、プレイグラウンド、リーダーボードなどの機能があり、カジュアルなユーザーや研究者が簡単に利用できるようになっています。これによって、モデルの性能を気軽に、正確に評価することができるようになっています。

様々なモデルを公平に比較するために、既存のコードベースを標準化しています。推論中は、ハイパーパラメータとプロンプト形式を固定し、インスタンスごとのプロンプトやハイパーパラメータの調整を防いでいます。これによって、様々なモデルの推論が公平かつ再現可能になります。また、ImagenHubに続き、新しいライブラリVideoGenHubを構築し、テキストから動画、画像から動画のモデルの推論手順を標準化しています。これによって、各モデルの最高性能を引き出す最適なハイパーパラメータを見つけることができます。

また投票は、偏りのない投票と生成モデルの正確な評価を確保するよう設計されています。（1）ユーザーがプロンプトを入力すると、同じタスク内の2つのモデル（匿名）から出力が生成されます。（2）生成された2つのモデル（匿名）の出力が並べて表示され、比較されます。（3）ユーザーは自分の好みで「左が良い」「右が良い」「どちらも良い」「どちらも悪い」の4つのオプションから投票できます。これらの4つのオプションは、イロレーティングを計算するために使用されます。そして最後に、（4）ユーザーが決定を下したら、投票ボタンをクリックして投票を送信します。このプロセス中にモデルが明らかになってしまった場合、投票を無効とします。つまり、単純に出力結果のみでモデルの好みを評価する仕組みが構築されています。

GenAI-Arenaでは、テキストによる画像生成（T2I）、画像編集（Editing）、テキストによる動画生成（T2V）を含む幅広い生成タスクを網羅する最先端の生成モデルを取り入れています。総合的な評価をするために、様々なアーキテクチャ、学習パラダイム、学習データ、加速技術など、様々な基盤技術を採用するモデルをプラットフォームに統合しています。これによって、各要因を厳密に理解するための洞察が得られます。

下表は、使用したすべての「テキストによる画像生成（T2I）モデル」です。例えば、SDXL、SDXL-Turbo、SDXL-Lightningは、すべてSDXLに基づいていますが、SDXL-TurboとSDXL-Lightningは異なる蒸留法を採用しています。また、PixArt-αやPixArt-σのような拡散変換モデルも含まれています。Playground V2やPlayground V2.5は、SDXLアーキテクチャに基づいており、Playground.aiによって内部データセットでゼロから学習されています。

下表は、すべての「画像編集（Editing）モデル」とアプローチが示しています。例えば、Pix2PixZero、InfEdit、SDEditなどのプラグアンドプレイ方式のアプローチは学習を必要とせず、広範な拡散モデルに適用可能です。一方、PnPやPrompt2PromptのようにDDIM逆変換を必要とするモデルもあり、これらは他のアプローチよりも時間がかかります。また、InstructP2P、MagicBrush、CosXLEditのような専門的に学習された画像編集モデルも含まれています。

また、下表は、すべての「テキストによる動画生成（T2V）モデル」を示しています。例えば、AnimateDiff、ModelScope 、LavieはSD-1.5から初期化され、フレーム間の時間的関係を捉えるためにモーションレイヤーを注入して学習を続けています。対照的に、StableVideoDiffusionとVideoCrafter2はSD-2.1から初期化されています。

GenAI-Bench

ユーザーが入力するプロンプトは、広範なユーザーに対応しており、ユーザーを潜在的に有害または攻撃的なコンテンツから保護するために、NSFWフィルター（Llama Guard）を適用しています。

テキストによる画像生成（T2I）のタスクでは、合計で4,300件の匿名の票を収集していますが、フィルタリング後に安全なコンテンツとして残ったのは1,700件となっています。性的コンテンツが原因で多くのプロンプトがフィルタリングされ、これは廃棄データの85.6%を占めています。画像編集（Editing）のタスクでは、フィルタリング前に1,100件の票を収集し、Llama Guard適用後に900件の票が残っています。このタスクでは、87.5%の不適切な入力が暴力犯罪を含み、残りの12.5%が性犯罪に関連するものでフィルタリングされています。最後に、テキストによる動画生成（T2V）のタスクでは、フィルタリング前に1,200件の票を収集し、NSFWフィルターでフィルタリング後に1,100件の票を公開しています。このタスクで廃棄された不適切なデータはすべて性的コンテンツによるものとしています。

なお、現在のバージョンのGenAI-BenchはHuggingFace Datasetのウェブサイトで、MITライセンスの下で公開されています。

収集されたユーザーの投票を分析するために、いくつかの既存の指標との相関を計算しています。CLIPScore、GPT-4o、Gemini-1.5-Pro、Idefics2、Mantisを評価基準として利用しています。これらのマルチモーダル大規模言語モデルには、セマンティクス、品質、全体的なパフォーマンスの評価を含むVIEScoreのプロンプトを使用して、画像生成タスクを評価しています。VIEScoreには動画評価に関連するプロンプトが含まれていないため、テキストによる動画生成（T2V）のタスクの出力品質を評価するために、マルチモーダル大規模言語モデルのプロンプトテンプレートを設計しています。動画は画像フレームに分解され、画像シーケンスとして入力されます。投票結果をエンコードし、既存の指標間のスコア差との相関を計算しています。下表に示されているように、相関は全体的に低くなっています。この嗜好に基づく投票アプローチとマルチモーダル大規模言語モデルの相関は、ほぼランダムになっています。

実験結果

この論文が執筆された時点（2024/06/06）のリーダーボードは、下表のとおりです。画像生成タスクでは、合計4,443票を収集しています。現在トップランクのモデルはPlayground V2.5とPlayground V2で、どちらもPlayground.aiがリリースしたモデルです。これらのモデルはSDXLと同じアーキテクチャを使用していますが、プライベートデータセットで学習されています。一方、SDXLは7位にランクインしており、かなり後れを取っています。この結果は、学習データセットの重要性を示しています。

Playgroundモデルに続くのはStableCascadeで、非常に効率的なカスケードアーキテクチャを使用して学習コストを低減しています。Würstchenによれば、StableCascadeの学習コストはSD-2.1のわずか10%でありながら、リーダーボードでSDXLを大きく上回っています。これは、拡散アーキテクチャの重要性を示していると言えます。

画像編集タスクでは、合計1,083票を収集しています。MagicBrush、InFEdit、CosXLEdit、InstructPix2Pixが上位にランクインしています。これらのモデルは画像の局所的な編集が得意とされています。一方、PNPは構造を保持しつつ特徴を入力するため、編集の多様性が制限されます。古い方法であるPrompt-to-Prompt、CycleDiffusion、SDEdit、Pix2PixZeroは、高品質な画像を生成しますが、編集中に全く異なる画像を生成することが多く、これがこれらのモデルの低いランキングの理由となっているとしています。

テキストによる動画生成タスクでは、合計1,568票を収集しています。T2VTurboが最高のEloスコアでトップに立っています。次いでStableVideoDiffusionが2位にランクインしています。VideoCrafter2とAnimateDiffも非常に近いイロレーティングを持ち、ほぼ同等の能力を示しています。LaVie、OpenSora、ModelScope、AnimateDiff-Turboがそれに続き、スコアが徐々に低くなっています。

下図では、勝率のヒートマップを可視化しています。各セルは、モデルAがモデルBに対して勝った割合を示しています。ヒートマップ内のモデルはイロレーティング順に並んでいます。各行の横軸に沿って、モデルAの勝率はモデルBのイロレーティングが低下するにつれて増加し、イロレーティングの有効性を示しています。

PlayGround 2.5はテキストによる画像生成タスクで最先端のイロレーティングを達成していますが、PixArt-σに対する勝率はわずか0.48で、50%未満です。同様に、テキストによる動画生成タスクの最先端モデルであるT2V-Turboは、StableVideoDiffusionに対する勝率が低くなっています。T2V-Turboの高いイロレーティングは、「簡単なゲーム」の投票が多く、「難しいゲーム」の投票が少ないためかもしれません。例えば、T2V-TurboとAnimateDiff-Turboの試合数は30回と多いのに対し、他のモデルとの試合数は約10回です（下図）。これらの異常は、イロレーティングの潜在的な欠点を示していると言えます。信頼性のあるイロレーティングには大量の投票データが必要であり、推定されたイロレーティングは「簡単なゲーム」と「難しいゲーム」の不均衡により偏る可能性があります。

下図は、3つの生成タスクで収集された投票を示すケーススタディを紹介しています。これらのケースは、GenAI-Arenaのユーザーが高度なモデルに対しても高品質の投票を提供できることを示しています。

例えば、テキストによる画像生成タスクでは、「かわいい犬がボールで遊んでいる」というプロンプトに対し、PlayGround V2.5が生成した画像が、SDXL-Lightningが生成した画像よりも好まれています。これは、後者は犬が2匹描かれていたためと考えられます。ユーザーは両方のモデルがタスクを完了していても、出力の品質に基づいて明確に区別し、投票することができます。同様に、画像編集タスクでは、Prompt2Promptの編集画像がInfEditの編集画像よりも自然に見えたため、ユーザーは投票しています。テキストから動画生成タスクでも、信頼性の高い投票が収集されています。

まとめ

この論文では、GenAI-Arenaというオープンプラットフォームを提案しています。このプラットフォームは、ユーザーの好みに基づいてテキストから画像生成、画像編集、動画生成の3つの主要タスクの生成モデルをランク付けすることを目的としています。GenAI-Arenaは他のプラットフォームとは異なり、コミュニティの投票によって運営されており、透明性と持続可能な運営を実現することができます。

2024年2月11日から、モデルの評価のための投票システムによって、6,000票以上を収集しています。これらの投票を基にイロレーティングのリーダーボードを作成し、PlayGround V2.5、MagicBrush、T2V-Turboが各タスクでの最先端モデルであることを示しています（2024年6月4日）。収集された投票に基づく分析では、イロレーティングは全体的に機能しているものの、「簡単なゲーム」と「難しいゲーム」の不均衡によって偏りが生じる可能性があることが示されています。いくつかのケーススタディでは、収集された投票が高品質であることも示されています。

さらに、GenAI-Benchとして人間の嗜好に基づく投票データも公開しています。既存のマルチモーダル大規模言語モデルを用いてGenAI-Bench上の生成された画像や動画を評価し、人間の投票との相関を計算しています。実験結果では、既存のマルチモーダル大規模言語モデルは非常に低い相関を示し、最良のモデルであるGPT-4oでも品質において0.22程度のピアソン相関係数しか達成できず、他の観点ではランダムな推測と同程度の結果となっています。

著者らは、今後も、リーダーボードを更新するために投票を収集し続け、コミュニティが研究の進展を追跡できるように支援するとしています。また、GenAI-Benchにおいて人間の評価をより正確に近似するためのよりマルチモーダル大規模言語モデルの開発も計画しています。今後の更なる研究が期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。