赶上最新的AI论文

聚光灯

聚光灯 "用于UI建模,只使用UI图像,与视图层次无关。

深度学习

三个要点
✔️ 实现 独立于视图层次的仅有图像移动UI建模
✔️ 在不改变架构的情况下,易于扩展并可用于其他UI任务
✔️典型的UI任务实现SoTA

Spotlight: Mobile UI Understanding using Vision-Language Models with a Focus
written by Gang LiYang Li
(Submitted on 29 Sep 2022 (v1), last revised 24 Feb 2023 (this version, v4))
Comments: Published as a conference paper at ICLR 2023
Subjects: Computer Vision and Pattern Recognition (cs.CV); Human-Computer Interaction (cs.HC); Machine Learning (cs.LG)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

 在UI自动化和可访问性方面,理解移动UI是一个重要的话题。到目前为止,移动UI的建模在很大程度上依赖于UI屏幕的视图层次(结构数据或元数据,如网页的DOM)。然而视图层次并不总是可用的,而且对象信息往往是缺失的,或者结构信息是不准确的和损坏的虽然视图分层很方便,也很容易处理,但它们会阻碍UI建模的适用性和性能。

 
因此,本文提出了Spotlight,一种只使用用户界面屏幕的图像数据的方法是一个用于UI建模的视觉语言模型,以UI屏幕的截图和屏幕上感兴趣的区域作为输入。Spotlight可以很容易地扩展到各种任务,本文也几个典型的UI任务实现了SoTA,并表明视图层次结构,并超过了使用层次结构的传统方法。下图显示了Spotlight过程的概况

A vision-language approach for foundational UI understanding fig.1
(改编自谷歌人工智能博客,"用于基础UI理解的视觉语言方法")

聚光灯 "模式。

 下图显示了 "Spotlight "模型的结构和本文所实验的UI任务的例子。Spotlight的输入是一张截图(screenshot)、屏幕上的一个感兴趣的区域(bbox)和一个任务描述(示例文本、提示文本)。输出是对感兴趣区域的描述或回应。输出是对感兴趣的区域的描述或反应。输入和输出的简单性使得该架构可以扩展到广泛的用户界面任务。

 Spotlight采用ViT对图像(屏幕截图)进行编码,并采用T5 Transformer解码来生成语言。此外,UI任务经常需要关注图像上的特定区域或对象,而不是整个图像因此,焦点区域提取器被引入,以实现对特定区域的特征提取。下图显示了 "焦点区域提取器 "的过程。

 


(改编自谷歌AI博客 "A vision-language approach for foundational UI understanding")

这里,使用从特定区域或物体的边界框(bbox)生成的注意力查询并介绍了 "区域总结器",它根据ViT编码提取了区域的特征。界限盒(bbox)每个坐标(左、上、右、下),在截图中表示为一个黄色的盒子通过多层感知器(MLP)被嵌入为一个密集的向量与坐标型嵌入一起,它们随后输入到转化器中坐标查询对应于ViT通过Cross Attention输出的UI图像的编码,而转化器的最终输出被用作T5转化器解码的领域表示。

实验

 两个未标记的数据集(一个基于C4语料库的内部数据集和一个内部移动数据集)包含250万个移动UI屏幕和8000万个网页,被用来预训练Spotlight并验证四个任务:第一,"小部件标题"。这是一个用自然语言生成对屏幕上某个特定对象的功能描述的任务;第二'屏幕总结'第三'指令接地',这是一个生成屏幕概览并描述其内容和功能的任务。第四项'可应用性预测'。它预测屏幕上的一个特定对象是否可以被触摸。

 对于评估,标题和总结使用CIDEr分数。接地使用模型在响应用户请求时能够找到目标对象的百分比;可触摸性使用F1得分来预测哪些对象是可触摸的,哪些是不可触摸的。衡量预测哪些物体可以和不能被点击的性能。

 在这个实验中,Spotlight与几个基准模型进行了比较:Widget Caption使用每个UI对象的视图层次和图像来生成该对象的文本描述;Screen2Words使用视图层次和屏幕截图Screen2Words使用视图层次和屏幕截图来生成屏幕摘要;VUT结合屏幕截图和视图层次来执行多种任务;Tappability利用视图层次和屏幕截图中的对象元数据来预测一个对象的而TaperceptionTappability的后续模型只用视觉信息来预测可操作性


 我们用两个不同大小的ViT模型进行实验,B/16和L/16。请注意,L/16比B/16大,具有与基于mT5的模型类似的参数大小,并且还重用了预先训练好的检查点实验结果如下表所示,这表明Spotlight(L/16)在所有UI任务上都达到了SoTA。

 接下来,为了了解 "区域总结器 "是否能够关注屏幕上的目标区域,Widget Caption和屏幕总结所关注的区域的权重被可视化了。在下面的Widget Caption例子(左边我们可以看到模型不仅学会了关注目标区域,即复选框而且还学会了关注最左边的文字'Chelsea'来生成Captionw下面屏幕归纳例子(右显示,模型正在学习关注屏幕的重要部分以进行归纳

摘要

 为了理解移动UI,本文提出了Spotlight,它只使用图像数据来实现UI建模。虽然视图层次很有用,但并不是总能得到,对象信息经常缺失,或者结构信息不准确和被破坏,依赖视图层次的传统方法是不够的。然而,现在已经实现了一种不依赖视图层次的方法,减少了UI建模的风险

Spotlight得益于一些优势,例如利用了现有的模型(ViT和T5),这些模型具有很强的通用性,很容易扩展到各种UI建模任务。此外,Spotlight在几个有代表性的UI任务上取得了SoTA,表明它优于使用视图层次的传统方法;Spotlight可以很容易地应用于更多的UI任务,并能对许多交互和用户体验作出重大贡献它有可能对许多交互和用户体验做出重大贡献。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们