介绍谷歌AI的WIT:最大的多模态图像-文本数据集,涵盖100多种语言
三个要点
✔️ 基于维基百科的最大文本-图像数据集
✔️ 包含108种语言的3670万文本-图像对。
✔️ 适当完善的数据集,由人类注释者验证。
WIT: Wikipedia-based Image Text Dataset for Multimodal Multilingual Machine Learning
written by Krishna Srinivasan, Karthik Raman, Jiecao Chen, Michael Bendersky, Marc Najork
(Submitted on 2 Mar 2021 (v1), last revised 3 Mar 2021 (this version, v2)])
Comments: Accepted by arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL); Information Retrieval (cs.IR)
code:
首先
由于深度学习模型是数据密集型的,所以当模型的大小和数据集的大小被适当放大时,往往会得到良好的结果。许多研究表明,模型的性能随着数据集的大小而提高,GPT、T5、BERT和ResNet等大型模型可以与ImageNet、COCO和BooksCorpus等大型数据集一起使用,有效地表示了可以在监督下进行培训。最近的工作,如ViLBERT、UNITER和UniTransformer(UniT),也是将多模态语言和图像功能纳入同一模型。这些数据集大多也仅限于英语,这也是多语言多模态学习的瓶颈。
在本文中,我们提出了一个基于维基百科的高度精炼的多语言文本-图像数据集。该数据集包含1150万张图片和3760万套文字图片。每种语言有12K以上的实例,53种语言有100K以上的实例。
WIT:维基百科图像文本数据集
这项工作的目标是创建一个具有高质量图像/文本对的高度审查数据集,如COCO和FLickr30K。由于创建这样的数据集是一项资源密集型的任务,尤其是在WIT这样的规模下,我们希望自动化并扩展数据集创建过程,就像我们在概念性标题(CC)数据集上所做的那样。
因此,我们选择了维基百科,维基百科拥有编辑团队策划的多种语言的丰富的众包信息。然而,由于这些数据的信息含量较低,而且(冗余和通用的)文本-图像关联,很难在这些数据上训练Visio语言(VL)模型,这需要大量的精炼。
利用FlumeJava管道,我们提取并处理了279种不同语言的约124M页内容信息。这些页面被用来获得150M(图像数据、文本数据、上下文数据)的元组,并进一步充实。
WIT中使用的文本
WIT中使用的字符信息有三种类型。
1) 参考说明(Ref.)是紧挨着图像下面的文字。它与图像最相关,但比其他描述更不常见。
2) 属性描述(attr.)是图片的维基媒体页面上的文字。这种文字通常是多语言的(138M以上),而且大多是无信息的、嘈杂的,但有些文字在语义上是有用的、可取的。
3)我发现用于无障碍和屏幕阅读器的Alt-text描述(alt)(通常是隐藏的)不是很有用。我还发现,通常只是在文件名中设置。
基于文本的过滤条件
- 文字的长度必须在3以上。
- 排除含有以下短语的alt-text。.png, .jpg, 图标, 存根, "参考", "alt text" ...。等等。
- 只有PNG和JPEG图像被选为属性和alt-text。
- 拍摄了一张带有参考说明的GIF图片。
- 在最后一部分(如参考文献、外部链接)中没有参考文献描述和没有图像的图元组被保留。
基于图像和图像-文本的过滤条件
- 高度和宽度为100像素以上的图像被保留。
- 使用了带有研究许可的图片,如Creative Commons。
- 冗余度较高的图像,如旗帜、标志和地图,取样较少,以避免建模偏差。
- 所有通用图片、小图标、占位图等都已删除。
额外清洁
使用多语言图像/文字理解模式删除了不适当的内容,如色情、暴力图像和文字。在最终的数据集中,只保留了元组数在12K以上的语言(108种)。数据被分割成训练、测试(50000张图片)和验证(50000张图片),因此每张图片只能放入一个分割。
旁人评价
为了测试数据集的可靠性,我们众包了人类注释者,如上图所示:由于一张图片可能会有多个文本的注释,我们询问文本与图片的匹配度,以及文本结合后对图片的表示度如何的形象。答案是"是"、"可能"、"不是"。
该测试对4.4k个不同语言的随机抽样例句进行了测试。英语3000例,德语、法语、西班牙语、俄语和汉语300例,印地语100例。
WIT的评价实验
为了评估WIT,我们训练了一个双编码器模型,如上图所示:两个编码器分别处理文本和图像。然后,我们测量一批中n个图像-文本对的余弦相似度,并训练模型以最小化softmax损失:只有nxn相似度矩阵的对角线项被视为正对。换句话说,我们鼓励编码器对相关的图像和文本对产生类似的结果。
我们还在CC数据集上训练了模型,并将结果与在WIT数据集上训练的模型进行了比较。上表显示了在图像和文本检索任务上的结果,没有任何调整(零镜头);在WIT上训练的模型更加通用,在非英语集上的表现优于CC模型。
上图显示了在MS-COCO、Dlickr30k和WIT-ALL数据集上的零射评估结果。然而,在这种情况下,CC数据集能够在前两个数据集中击败WIT-ALL数据集。
为了检查WIT数据集的多语言有效性,我们还在Multi30k-R数据集上评估了模型。两种模型在Multi30k数据集上都很吃力,在CC数据集上训练的模型在WIT测试数据集上表现不佳。
WIT在Multi39K、COCO和Flickr数据集上表现非常差的原因是由于维基百科是一个非常多样化的内容池。如上表所示,72.02%的词频在3以下。图像数据也非常多样化,在识别出的450万个实体中,超过80%(368万)的实体出现次数少于3次。此外,WIT数据集中的文本通常是描述性的,与评估数据集中的单行注释形成鲜明对比;在CC数据集中,我们进行了文本超名词化(用通用术语替换个人名词)。在CC数据集中)创建一个类似于评估集的数据集。然而,在一个有100多种语言的大型数据集中,这个任务非常困难。
摘要
WIT是一个丰富多样的数据集,可用于预训练图像、语言和文本视觉模型,以及微调图像到文本模型和跨语言表示;如UNITER、Unicoder-VL、VL-BER等模型,以及最近的UnitTransformer等模型已经在各种文本视觉任务上显示出了可喜的成果,而WIT等多样化的数据集则有助于推动这一领域的发展。此外,WIT是一个多语种的数据集,它使全世界更公平地获得研究信息。
与本文相关的类别