赶上最新的AI论文

[GenAI-Arena]通过用户投票评估生成模型的新平台

[GenAI-Arena]通过用户投票评估生成模型的新平台

大型语言模型

三个要点
✔️ 提出 GenAI-Arena,这是首个基于用户偏好对生成模型进行排名的开放平台
✔️
通过用户投票对生成模型进行评分,支持图像生成、图像编辑和视频生成三项任务
✔️ 以 "GenAI-Bench "的形式发布数据,促进研究社区的发展

GenAI Arena: An Open Evaluation Platform for Generative Models
written by Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
(Submitted on 6 Jun 2024)
Comments: 
9 pages,7 figures

Subjects: Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

图像生成和图像编辑技术发展迅速,被广泛应用于艺术品创作和医疗成像支持等多个领域。尽管如此,掌握模型并评估其性能仍然是一项具有挑战性的任务。传统的评估指标,如 PSNR、SSIM、LPIPS 和 FID 等,对于评估特定的视角非常有用,但对于综合评估却存在挑战。特别是在评估美学和用户满意度等主观方面存在挑战。

为了应对这些挑战,本文提出了一个名为 GenAI-Arena 的新平台。GenAI-Arena 简化了比较不同模型的过程,并根据用户的偏好对它们进行排名,从而对模型的能力进行更全面的评估。该平台旨在帮助用户更全面地评估模型的能力。该平台支持多种任务,包括文本到图像生成、文本引导图像编辑和文本到视频生成。它支持多种任务。它还提供公开投票程序,以确保透明度。

自 2024 年 2 月 11 日以来,该论文已为三个多模态生成任务收集了 6000 多张选票。这些投票被用来为每个任务创建排行榜。对投票数据的分析还表明,虽然 Elo 评级通常是有效的,但 "简单 "和 "困难 "游戏之间的不平衡也会造成偏差。此外,还进行了一项定量分析案例研究,结果表明用户可以从多个评级角度进行投票,以识别输出中的细微差别,并为 Elo Rating 计算提供准确的投票。

此外,自动评估生成的视频图像内容的质量被认为是一个具有挑战性的问题。图像和视频有许多敏感的评估方面,如视觉质量、一致性、完整性和人工痕迹,这些多面性给评估带来了困难。此外,网络上缺乏教师数据。因此,在本文中,我们旨在通过发布用户投票数据作为 GenAI-Bench 来促进该领域的进一步发展。

我们计算了各种自动视频评估模型(如 GPT-4o 和 Gemini 等多模态大规模语言模型)与人类偏好之间的相关性,以评估它们的评估性能。结果表明,即使是最好的多模态大规模语言模型 GPT-4o,与人类偏好的最大皮尔逊相关系数也只有 0.22 左右。

GenAI 竞技场由三部分组成:第一部分是基于文本的图像生成竞技场(T2I)、图像编辑竞技场(Editing)和基于文本的视频生成竞技场(T2V),社区通过投票获得他们最喜欢的配对。 第二个是排行榜,利用这些偏好对来计算所有评估模型的得分;第三个是 GenAI 工作台,用于评估各种多模态大规模语言模型(评估模型)。

GenAI-Arena:设计与实施

GenAI-Arena 是一个用于评估生成模型的直观而全面的平台。它侧重于三个主要任务:基于文本的图像生成(T2I)、图像编辑(Editing)和基于文本的视频生成(T2V)。如下图所示,每个任务都有一个投票系统、游戏场和排行榜,方便普通用户和研究人员使用。这样就可以对模型的性能进行随意而准确的评估。

为了确保对各种模型进行公平的比较,现有的代码库已经标准化。在推理过程中,超参数和提示格式是固定的,因此无法根据具体实例调整提示和超参数。这就使得不同模型的推理具有公平性和可重复性。继ImagenHub之后,我们还建立了一个新库VideoGenHub,以规范文本到视频和图像到视频模型的推理程序。这样,我们就能找到最佳超参数,使每个模型都能发挥最佳性能。

投票的设计也是为了确保无偏见的投票和对生成模型的准确评估。(1) 当用户输入提示时,同一任务中的两个(匿名)模型会生成输出(2) 两个匿名)生成模型的输出结果将并排显示并进行比较。(3) 用户可以根据自己的偏好从四个选项中投票:"左边更好"、"右边更好"、"两个都更好 "或 "两个都更差"。这四个选项用于计算 illo 评分。最后,(4)一旦用户做出决定,就可以点击投票按钮提交投票。如果在此过程中模型被揭示,则投票无效。换句话说,该系统的建立是为了仅根据输出结果来评估模型的偏好。

GenAI-Arena 整合了最先进的生成模型,涵盖广泛的生成任务,包括基于文本的图像生成(T2I)、图像编辑(Editing)和基于文本的视频生成(T2V)。为了进行全面评估,该平台整合了采用各种底层技术的模型,包括不同的架构、学习范式、训练数据和加速技术。这有助于深入了解每个因素。

下表列出了所使用的所有 "基于文本的图像生成(T2I)模型"。例如,SDXL、SDXL-Turbo 和 SDXL-Lightning 都基于 SDXL,但 SDXL-Turbo 和 SDXL-Lightning 使用不同的蒸馏方法。Playground V2 和 Playground V2.5 基于 SDXL 架构,并在 Playground.ai 的内部数据集上从头开始训练。

下表列出了所有 "图像编辑(Editing)模型 "和方法。例如,Pix2PixZero、InfEdit 和 SDEdit 等即插即用方法不需要训练,适用于各种扩散模型。另一方面,一些模型,如 PnP 和 Prompt2Prompt,需要 DDIM 反演,这些方法比其他方法耗时更长。此外,还包括经过专业训练的图像编辑模型,如 InstructP2P、MagicBrush 和 CosXLEdit。

下表还显示了所有文本到视频 (T2V) 模型。例如,AnimateDiff、ModelScope 和 Lavie 从 SD-1.5 开始初始化,并继续通过注入运动层来捕捉帧间的时间关系进行训练。而 StableVideoDiffusion 和 VideoCrafter2 则是从 SD-2.1 开始初始化的。

GenAI-Bench

用户输入的提示信息面向广大用户,并采用NSFW 过滤器(Llama Guard)保护用户免受潜在有害或攻击性内容的影响。

基于文本的图像生成(T2I)任务中,总共收集了 4,300 张匿名投票,但经过过滤后,只有 1,700 张仍为安全内容。大量提示因涉及性内容而被过滤,占被弃数据的 85.6%。在图像编辑(Editing)任务中,过滤前收集了 1,100 张选票,应用 Llama Guard 后保留了 900 张选票。在这项任务中,87.5% 的不恰当输入包含暴力犯罪,而剩余的 12.5%则被过滤为与性犯罪有关的输入。最后,在通过文本生成视频(T2V)的任务中,过滤前收集了 1,200 张选票,在使用 NSFW 过滤器过滤后释放了 1,100 张选票在这项任务中被丢弃的所有不恰当数据都归因于性内容。

请注意,当前版本的 GenAI-Bench 可在HuggingFace Dataset 网站上以 MIT 许可获取。

为了分析收集到的用户投票,我们计算了与几个现有指标的相关性:我们使用 CLIPScore、GPT-4o、Gemini-1.5-Pro、Idefics2 和 Mantis 作为评估标准。我们使用 VIEScore 提示对这些多模态大规模语言模型的图像生成任务进行了评估,其中包括语义、质量和整体性能评估;由于 VIEScore 不包括与视频评估相关的提示,因此基于文本的视频生成(T2V任务)是我们重点。由于 VIEScore 不包括与视频评估相关的提示,因此基于文本的视频生成(T2V)任务设计了一个多模态大规模语言模型提示模板,用于评估任务的输出质量。视频被分解成图像帧,并作为图像序列输入。对投票结果进行编码,并计算与现有指标之间分数差异的相关性。如下表所示,相关性普遍较低。这种基于偏好的投票方法与多模态大规模语言模型之间的相关性几乎是随机的。

实验结果

本文撰写时(2024/06/06)的排行榜如下表所示。图像生成任务共收集了 4443 张选票。目前排名第一的模型是 Playground V2.5 和 Playground V2,均由 Playground.ai 发布。这些模型采用与 SDXL 相同的架构,但都是在私有数据集上训练的。而 SDXL 则排名第七,远远落后。这一结果表明了训练数据集的重要性。

继 Playground 模型之后,StableCascade 也采用了高效的级联架构来降低学习成本。据 Würstchen 称,StableCascade 的学习成本仅为 SD-2.1 的 10%,而领先者 SDXL 的学习成本则要低得多。这说明了扩散架构的重要性。

图像编辑任务共获得 1,083 张选票,MagicBrush、InFEdit、CosXLEdit 和 InstructPix2Pix 名列前茅。这些模型被认为擅长图像的局部编辑。另一方面,PNP 在输入特征的同时保留了结构,这限制了编辑的多样性。较老的方法 Prompt-to-Prompt、CycleDiffusion、SDEdit 和 Pix2PixZero 能生成高质量的图像,但在编辑过程中往往会生成完全不同的图像,这也是这些模型排名靠后的原因。

在基于文本的视频生成任务中,共收集到 1,568 张选票,T2VTurbo 以最高的 Elo 得分排名第一。第二名是 StableVideoDiffusion,紧随其后的是 VideoCrafter2 和 AnimateDiff,它们的 Elo 评分也非常接近,显示出几乎相当的能力:LaVie、OpenSora 和 ModelScope、AnimateDiff-Turbo 紧随其后,但得分逐渐降低。

下图是胜率的热图。每个单元格显示模型 A 与模型 B 的胜率百分比。热图中的模型Irorating排序。沿着每行的横轴,模型 A 的胜率随着模型 B的 Irorating 的降低而增加,这表明了Irorating 的有效性。

在基于文本的图像生成任务中,PlayGround 2.5 实现了最先进的 illorating,但其对 PixArt-σ 的胜率仅为 0.48,不到 50%。同样,在基于文本的视频生成任务中,T2V-Turbo 是最先进的模型,但它对 StableVideoDiffusion 的胜率却很低;T2V-Turbo 的高 iro 评分是由于 "简单游戏 "得票较多,而 "困难游戏 "得票较少。这可能是因为 T2V-Turbo 的 "简单游戏 "票数较多,而 "困难游戏 "票数较少。例如,T2V-Turbo 和 AnimateDiff-Turbo 的游戏数量较多(30 个),而其他模型的游戏数量约为 10 个(见下文)。这些反常现象表明虹吸评级存在潜在缺陷。可靠的 iro 评分需要大量的投票数据,而 "简单 "和 "困难 "游戏之间的不平衡可能会导致估计的 iro 评分出现偏差。

下图展示的案例研究显示了在三个生成任务中收集到的选票。这些案例表明,GenAI-Arena 用户可以为高级模型提供高质量的投票。

例如,在文本图像生成任务中,在提示 "可爱的小狗在玩球 "时,PlayGround V2.5 生成的图像比 SDXL-Lightning 生成的图像更受欢迎。这可能是因为后者描绘的是两只狗。即使两个模型都完成了任务,用户也能根据输出的质量进行明确区分和投票。同样,在图像编辑任务中,用户投票支持 Prompt2Prompt 编辑的图像,因为它比 InfEdit 编辑的图像看起来更自然。在文本到视频生成任务中也收集到了可靠的投票。

摘要

本文提出了一个名为 GenAI-Arena 的开放平台。与其他平台不同,GenAI-Arena 是通过社区投票来运行的,这确保了平台的透明和可持续运行。与其他平台不同的是,GenAI-Arena 是通过社区投票来运行的,这确保了平台的透明和可持续运行。

自 2024 年 2 月 11 日以来,投票系统已收集了 6000 多张对模型进行评级的选票。根据这些选票,Iro Rating 排行榜已经产生,显示 PlayGround V2.5、MagicBrush 和 T2V-Turbo 是各自任务中最先进的模型(2024 年 6 月 4 日)。根据收集到的选票进行的分析表明,虽然 IroRating 总体上是有效的,但由于 "简单 "和 "困难 "游戏之间的不平衡,它可能会出现偏差。一些案例研究也表明,收集到的选票质量很高。

此外,基于人类偏好的投票数据作为 GenAI-Bench 提供。现有的多模态大规模语言模型被用来评估 GenAI-Bench 上生成的图像和视频,并计算它们与人类投票的相关性。实验结果表明,现有的多模态大规模语言模型显示出非常低的相关性,即使是最好的模型 GPT-4o,在质量上也只能达到约 0.22 的皮尔逊相关系数,在其他方面与随机猜测相当。

作者将继续收集投票以更新排行榜,帮助社区跟踪研究进展。他们还计划开发一种更多模态的大规模语言模型,以更准确地接近人类在 GenAI-Bench 中的评分。预计未来还会有进一步的研究。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们