
开发和应用 Let's Go Shopping (LGS),这是一个使用电子商务数据的新型大规模双模数据集
三个要点
✔️ 建立一个 新的数据集:一个名为 "Let's Go Shopping"(LGS)的大型数据集,使用的是电子商务网站上现成的图像/文本对。此外,这种方法还解决了确保高质量注释数据的问题。
✔️ LGS 数据集 的多样性和规模:LGS 数据集包含超过 1,500 万对图像/文本,为图像识别和双模应用提供了有用的数据,并通过视觉信息的多样性提高了泛化能力。
✔️ 对新应用领域的影响:LGS 数据集独特的数据分布和双模(同时处理图像和文本)特性证明了其在图像分类、图像重建、双模表示学习和文本到图像生成等广泛应用中的有效性。
Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
written by Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
(Submitted on 9 Jan 2024)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
近年来,计算机视觉(CV)和自然语言处理(NLP)领域的研究进展离不开大型数据集的预训练。这些数据集为机器学习模型理解现实世界的复杂性并将其应用于图像识别和语言理解任务奠定了基础。然而,创建这些数据集需要耗费大量的时间和精力,尤其是对于集成了图像和语言的双模应用而言,这使得准备高质量的注释数据变得更加困难。因此,研究界只能依赖数量有限的公开数据集,这阻碍了研究的多样性和发展。
为了应对这一挑战,本文提出了一种新的数据集构建方法,即利用电子商务网站中现成的图像-文本对。本文利用这种新方法构建了一个名为 "Let's Go Shopping"(LGS)的大型数据集,该数据集提供了从大约 10,000 个电子商务网站收集的 1,500 万对图像描述信息的丰富资源。LGS 数据集提供了客观、准确和丰富的图像标题信息资源,旨在为图像和语言模型的预训练提供高质量的数据。电子商务数据的性质也使其成为图像识别任务的理想选择,因为许多图像都有清晰的背景,并且静态地聚焦在感兴趣的对象上。
此外,本文还证明了电子商务图像提供的多样化视觉信息可增强传统数据集未涵盖的分布外(OOD)场景的泛化能力:与传统的纯图像数据集(如 ImageNet)相比,LGS数据集可以提供视觉特征,帮助模型在图像分类、重建、标题和生成任务中适应新的环境和场景。
这项研究表明了大型、多样化数据集的重要性以及利用新数据源的潜力。
什么是 Let's Go Shopping (LGS) 数据集?
Let's Go Shopping (LGS) 数据集是一个反映电子商务世界的史诗级数据集,如下表所示,它包含超过 1,484 万个图像-文本对。这个数据集比现有的许多其他双模型数据集都要大,是研究人员和开发人员的宝贵资源。为了建立这个数据集,我们从大约 10,000 个电子商务网站收集了信息,这些网站代表了从婴儿产品、体育用品到新娘珠宝等一系列产品。
在数据收集过程中,会设置启发式规则来区分产品页面和非商品页面,自动工具会收集产品标题、描述和第一张列出的图片。这一过程经过了严格的测试,以避免卖家不愿分享的信息,并最终排除了疑似质量问题的实例。此外,与典型的图片标题数据集不同,LGS 数据集中的图片通常只描绘了占据前景的单个非动画物品,与背景没有任何联系。背景是单色的,这种清晰的背景使模型更容易识别与任务相对应的模式。
LGS 标题比 COCO 数据集中的标题大约三倍,单词和短语的多样性大约大 20 倍。这些标题包含了来自电子商务网站的大量信息,可以提取清晰的结构信息进行微调。Spacy 库用于分析语言统计数据,并在普通名词、专有名词、形容词和动词之间进行比较;LGS 的标题,尤其是服装和可穿戴物品的标题,具有很强的描述性,是产品特定描述和行为的特征。
LGS 数据集还被应用于图像和标题配对格式之外的图像分类任务。为此,我们建立了三个分类变体--LGS-117、LGS-710 和 LGS-Overlap。LGS-117 和 LGS-710 被设计为预训练数据集。在分类模型生成的所有原始标签中,有一些同义词和重叠词需要整合。在手动合并最受欢迎类别中的同义词后,我们发现有 117 个类别至少包含 10,000 张图片。从每个类别中选取 10,000 张图像,形成平衡的 LGS-117 数据集;LGS-710 是一个不平衡的数据集,包含较罕见的类别;LGS-Overlap 是在 ImageNet-1k 上训练的模型的分布外测试集,建议作为 ImageNet-1k 的测试集。LGS-Overlap 是在 ImageNet-1k 上训练的模型的分布外测试集,建议作为电子商务应用的测试集,显示了电子商务应用与一般预训练数据集之间明显的标签分布差异。
LGS 数据集为研究和应用开发提供了重要资源,捕捉到了电子商务的复杂性和多样性。
试验
本研究在两个不同的图像数据集(电子商务和 ImageNet)上进行了图像分类和重建实验。通过这一过程,它还确定了这些数据集之间图像和标签分布的差异。
据观察,非常著名的 ImageNet 分类器在直接应用于电子商务数据集时表现不佳。例如,在使用 ResNet-50 和 ConvNeXT-Base 模型的实验中发现,与在 ImageNet 数据集上获得的高准确率不同,在电子商务数据集上的准确率明显降低。这表明,在 ImageNet 上训练的模型并不适合直接应用于电子商务等特定领域。这表明需要在特定领域的数据集上进行额外的训练,以提高分类准确性。
利用屏蔽自动编码器(MAE),比较了仅在 ImageNet 上训练的模型的性能,以及在 ImageNet 和电子商务数据集上训练的模型的性能。结果表明,加入电子商务数据集后,图像重建的质量有了显著提高。这表明自监督学习具有跨越不同领域的通用能力。
上述内容凸显了在 ImageNet 等通用数据集上训练的模型在直接应用于电子商务等特定领域时存在的局限性。这也表明,通过使用不同的方法(包括自监督学习)来应对此类挑战,就有可能克服这些局限性,开发出具有更强泛化能力的模型。这为提高模型在不同领域的适用性指明了新的方向。
摘要
让我们去购物(LGS)数据集是电子商务领域的一个创新数据集。该数据集包含约 1,500 万对图片及其相应的描述,全部以公开访问的形式从电子商务网站收集而来。独特的半自动化收集和注释方法确保了对大量和多样化数据的高效收集。
LGS 数据集的特点表明,尽管电子商务特定类别与一般数据集之间缺乏直接匹配,但提取视觉特征的技术是可以共享的。这表明,学习算法可以应用于不同学科的数据集。
此外,LGS 所具有的独特数据分布和双模(同时处理图像和文本)特性也显示了其在新应用领域的潜力。具体来说,LGS 已在图像分类、图像重建、双模表示学习和文本到图像生成等广泛应用中显示出其有效性。
LGS 数据集为利用电子商务数据开发新技术铺平了道路,并拓展了其在不同应用领域的潜力。预计该数据集将在未来人工智能和机器学习领域的研究和应用开发中发挥重要作用。
与本文相关的类别