モバイルUI向けマルチモーダル大規模言語モデル「Ferret-UI」

Large language models 2024年09月02日

3つの要点
✔️ モバイルUIとの相互作用の理解に特化したマルチモーダル大規模言語モデル「Ferret-UI」を提案
✔️ 異なる画面アスペクト比に対応する「anyres」を導入。多様な画面サイズで効果的に機能させることが可能
✔️ 複数モデルの比較において、特に高度なタスクで、顕著な性能を達成

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
written by Keen You, Haotian Zhang, Eldon Schoop, Floris Weers, Amanda Swearngin, Jeffrey Nichols, Yinfei Yang, Zhe Gan
(Submitted on 8 Apr 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

モバイルアプリケーションは、情報検索、予約、娯楽など様々な領域で日常生活で不可欠なツールとなっています。私たちは通常、目的に応じて画面を視覚的に確認し、必要な操作を行っています。このプロセスを自動化することで、ユーザーはより容易に目的を達成できるようになります。また、自動化は、アクセシビリティ向上、UIナビゲーション、アプリテスト、ユーザビリティ研究など、多岐にわたる分野での応用も可能になります。

UIの知覚とインタラクションをスムーズに自動化するためには、高度な機能を備えたシステムが必要です。このシステムは、画面全体を理解し、特定のUI要素にフォーカスできる能力が必要になります。また、自然言語のガイドをUI内の具体的な行動に変換し、高度な推論を行い、関連する詳細情報を提供する能力も求められます。

しかし、現在の技術ではこれらの機能を完全に実現するには至っていません。自然画像に強いマルチモーダル大規模言語モデル（MLLM）はいくつか報告されていますが、それらもUI画面になると難しくなります。UI画面は自然画像と比較してアスペクト比が長く、アイコンやテキストなどの小さなオブジェクトが多いなどの特性があるため、課題となっています。

この論文では、これらの課題に対応するために「Ferret-UI」を新たに開発しています。Ferret-UIは、UI画面向けに設計された初のマルチモーダル大規模言語モデルであり、オープンエンドの言語指示を理解し、適切な行動に変換する能力を持っています。この論文では、モデルアーキテクチャの改善、データキュレーション、ベンチマーク設定の3つの主要な分野に焦点を当て、Ferret-UIを開発しています。特に、任意の解像度をサポートし、異なる画面サイズにも柔軟に対応できるように、画像をサブ画像に分割する新しいグリッド設定を導入しています。

また、Ferret-UIの開発では、UI操作の基本から高度な推論に至るまで、さまざまなレベルのタスクを含む学習データを生成しています。初期段階では、テンプレートをもとにした手法で、ウィジェット分類やアイコン認識、OCRなどの基本的なReferringタスク、そしてウィジェットやアイコンの位置特定などのGroundingタスクのサンプルを作成しています。これらのタスクは、モデルがUI要素の意味と配置を理解し、異なるタイプのUI間で、さらには同一タイプ内で細かな区別を行うことを可能にします。

また、より複雑な課題に対応するため、GPT-4を利用して、詳細な説明や会話の認識、対話のやり取り、機能推論を含む高度なタスクデータを生成しています。これにより、モデルは視覚要素についての深い議論に参加し、明確な目標に基づく行動計画を立て、画面の目的を解釈を行うことを可能にします。

下図は、基本から高度なものまでの11のタスクを扱う際のFerret-UIの習熟度の例を示しています。柔軟な入力形式（点、ボックス、スクリブル）を使用してReferringタスク（例: ウィジェット分類、アイコン認識、OCR）およびGroundingタスク（例: ウィジェットを見つける、アイコンを見つける、テキストを見つける、ウィジェットリスティング）をモバイルUI画面上で実行できます。これらの基本タスクにより、モデルは豊かな視覚的および空間的知識を装備され、さまざまなアイコンやテキスト要素など、粗いレベルと細かいレベルの両方でUIタイプを区別できるようになります。

さらに、モデルの効果を評価するために、14種類の多様なモバイルUIタスクを含む包括的なテストベンチマークを開発しています。このベンチマークは、iPhoneとAndroidの両方の画面にカスタマイズされた、基本および高度なタスクの両方をカバーしています。さまざまなUI理解モデルを評価する中で、Ferret-UIは既存のFerretモデルを大幅に上回り、特に高度なタスクにおいては、他のモデルと比べて顕著な優位性を示しています。

「任意の解像度」を採用したFerret-UIを提案し、これがReferringタスク、Groundingタスク、Reasoningタスクを効率的にこなす初のUI専用のマルチモーダル大規模言語モデルです。

Ferret-UI：高度な自然画像認識を活用した新しいUIインタラクションモデル

Ferret-UIは、多様な形状や詳細レベルの自然画像内で物体や領域を識別し、関連付ける能力に特化した機械学習モデル「Ferret」に基づいて開発されています。このモデルは、点やボックス、自由形状など、さまざまな方法で指定されたオブジェクトと対話することができます。さらに、Ferret-UIには高度なビジュアルエンコーダ（例：CLIP-ViT-L/14）とデコーダ専用の言語モデル（例：Vicuna）が組み込まれており、視覚データを言語処理モデルが扱いやすい形式に変換するハイブリッド技術が導入されています。

この技術の核となるのは、空間認識ビジュアルサンプラー（Spatial-Aware Visual Sampler）で、これにより、異なる密度を持つ領域の形状の特徴を効果的に把握し、管理することができます。UIとの相互作用をさらに進化させるため、Ferret-UIでは2つの重要な拡張が行われています。まず、UIのReferringとGroundingタスクを定義し、これらのタスクを構築しています。次に、スクリーンデータをより効果的に扱うためのモデルアーキテクチャを調整しています。

具体的には、Ferret-UIはOCR（光学文字認識）、アイコン認識、ウィジェット分類といったUIのReferringタスク、またテキストやアイコン、ウィジェットの検索、ウィジェットのリスティングなど、多岐にわたるGroundingタスクを含んでおり、これにより、モデルはUIとの高度なインタラクションを実現するための強固な理解基盤を築いています。これらの機能により、Ferret-UIは他のモデルと一線を画す、直感的で革新的なユーザーインタフェースの解決策を提供しています。

先行する多くのマルチモーダル大規模言語モデルと一線を画すFerret-UIは、外部の検出モジュールやスクリーンビューファイルを使用せず、生の画面ピクセルを直接モデル入力として使用しています。この自己完結型のアプローチは、高度なシングルスクリーンインタラクションを可能にし、新たなアプリケーションへの道を切り開いています。特に、アクセシビリティ向上などの分野でその可能性が期待されます。

初期のデータセット分析からは重要な洞察が得ています。1つは、UIスクリーンのアスペクト比が自然画像に見られるものよりも長くなっていること、もう1つはUIタスクにおいて扱うオブジェクト（アイコンやテキストなどのUIウィジェット）が自然画像よりも遥かに小さいことです。これらの小さなオブジェクトを効果的に扱うため、この論文では「任意の解像度」（anyres）というアプローチを導入しています。これにより、元の画面のアスペクト比に基づいて1x2または2x1のグリッド構成を選択し、画面を適切にリサイズしてからサブイメージに分割しています。

例えば、ポートレート形式の画面は水平に、ランドスケープ形式の画面は垂直に分割されます。これらのサブイメージはそれぞれ独立してエンコードされ、全体の画像コンテキストと共に、細部にわたる視覚情報を利用して処理されます。このような「任意の解像度」調整機能により、Ferret-UIは画像の詳細を保ちつつ、さまざまな画像フォーマットを効率的に処理することができます。この革新的な手法により、Ferret-UIは画面上の詳細なインタラクションを実現し、UIの理解と操作を大きく前進させることができています。

実験結果

Ferret-UI-base、Ferret-UI-anyres、Ferret2、GPT-4Vを含む複数のモデルのパフォーマンスを比較し、高度なタスクにおけるFuyuとCogAgentのパフォーマンスも検証しています。結果は下表のとおりです。

ベンチマークとして、公開ベンチマーク「Spotlight」を利用しています。これは、事前学習に8000万枚のウェブページと269万枚のモバイルスクリーンショットを使用していますが、Ferret-UIはS2WとWiCでSpotlightを上回る優れた結果を示しています。一方で、TaPでは劣るものの、競争力のある結果を得ています。これは、テーパーセプションラベルのノイズが影響している可能性が示唆されています。

また、 Referringタスクでは、OCRの正確な一致精度やアイコン認識、ウィジェット分類の精度を、Groundingタスクでは正しいバウンディングボックスがラベルとの交差率（IoU）が0.5を超える場合の精度を示しています。

さらに、Ferret-UIがiPhoneのテキスト検索を除く多くの基本タスクで、他のモデルよりも高いパフォーマンスを示しています。GPT-4VはiPhoneタスクではまずまずの結果を示していますが、Androidタスクでのパフォーマンスはやや劣っています。これは、Androidの画面が多くの小さなウィジェットを含んでおり、それがGroundingタスクを困難にしているためと考えられます。また、UIBertからの参照表現理解タスクでFerret-UIが76％のゼロショットパフォーマンスを達成しており、Ferret-UI-baseに「anyres」機能を追加することで、iPhoneのReferringタスクおよびGroundingタスクのパフォーマンスが2ポイント向上しています。

次に高度なタスクに関する結果です。結果は下表のようになっています。高度なタスクはオープンエンドの回答を要求するため、GPT-4を使用してラベルと予測の両方を採点しています。予測のスコアをラベルのスコアに対するパーセンテージとしています。

Ferret-UIは、学習データにAndroid固有のデータがないにもかかわらず、両プラットフォームで高度なタスクにおいて高いパフォーマンスを示しています。これは、異なるオペレーティングシステム間でUI知識が効果的に転移していることを示しており、システムの柔軟性が高いことを示唆しています。

他のモデルとの比較では、Fuyuは関連性のある回答を生成しますが、Ferret-UIが示すような詳細や精度は不足しています。一方、GPT-4Vは、より詳細な回答を提供することで、全タスクにおいて高い評価を得ています。この傾向は、モデル評価者の好みに合致しています。

特にiPhoneにおける高度なタスクでは、Ferret-UI-anyresの導入により、パフォーマンスが大幅に20ポイント向上しています。しかし、Androidタスクにおいては、パフォーマンスが低下しています。これは、学習データにAndroidの高度なタスク情報が含まれていないため、iPhoneに特化した知識が増えるにつれて、モデルの一般適用性が若干低下していることが原因と考えられます。この結果は、データの偏りがモデルの適用性にどのような影響を与えるかを示唆しています。

アブレーション研究

この論文では、基本的なUI要素に対する視覚的および空間的な理解を深めることが、より複雑なタスクの実行にどのように役立つかを探求しています。この研究の核となる仮説は、基本的なタスクを通じて強化された理解が、高度なタスクの処理能力を向上させるというものです。この点を明らかにするため、基本的なタスクが高度なタスクのパフォーマンスに与える影響を詳細に検証しています。結果は下表のとおりです。

高度なタスクのみで試した場合、両プラットフォームのパフォーマンスは64％にとどまりましたが、iPhoneまたはAndroidの基本的なタスクを追加することで、iPhoneの高度なタスクのパフォーマンスは一貫して5％向上しています。さらに、iPhoneからの基本的なタスクを加えることでAndroidの高度なタスクのパフォーマンスも約4％改善され、Androidの基本的なタスクを取り入れた場合には、さらに9％の向上が見られています。そして、iPhoneとAndroidの基本的なタスクを両方取り入れた場合、iPhoneおよびAndroidの高度なタスクのパフォーマンスはそれぞれさらに3％および5％向上しています。

これらの結果は、基本的なタスクがモデルに提供する強化された視覚的および空間的理解が、高度なタスクの実行を助け、全体的なパフォーマンスを向上させるという仮説を示唆しています。

また、Spotlightタスクにおけるデータ構成の違いがモデルパフォーマンスにどのように影響するかを明らかにするために、基本的なタスクデータの追加がパフォーマンス向上に寄与するかどうかを調査しています。結果は下表のとおりです。

これらのタスクは、画面の視覚的及び空間的理解を向上させることを目的として設計されていますが、AndroidやiPhoneからの基本的なタスクデータを追加しても、Spotlightタスクの三つのパフォーマンスは顕著には改善されませんでした。これは、基本的なタスクで用いられる特殊化されたUI中心の語彙が、Spotlightタスクで求められる回答スタイルとは異なるためと考えられます。

最も良い結果は、全ての基本的なタスクに高度なタスクデータを統合した場合に得られています。これは、iPhoneからの高度なタスクデータのみが使用されたにも関わらず、ウィジェットのキャプションのCIDErスコアが4ポイント向上しています。高度なタスクの自由形式の回答は、実行により洗練されたスキルセットを要求し、Spotlightタスクの要件に密接に一致しています。

高度なタスクで磨かれたスキルセットは、基本的なタスクと高度なタスクの間の複雑さの中間に位置するSpotlightタスクの解決に有利であると考えられます。

結果分析

ここでは、Ferret-UIの基本的なUIタスクにおけるReferringタスクとGroundingタスクの分析結果を紹介します。

Ferret-UIのOCRとウィジェット分類に関する分析では、重要な示唆を得ています。特にOCRタスクにおいて、モデルがターゲットのテキストではなく隣接するテキストを予測する傾向があり、これは小さなテキストや密接したテキストで顕著です。しかし、anyres技術を組み込むことで、この問題が軽減され、拡大されたサブイメージがモデルの小さな視覚的詳細の処理を支援していることが示されています。

また、モデルは画面に表示された文字を解読するだけでなく、実際の単語を予測する傾向があり、これはUIスクリーン上のブランド名など、音声的に作成された単語で一般的です。さらに、OCRモデルが誤ったテキストを返す場合でも、部分的に切り取られたテキストを正確に予測する能力を示しています。

OCRと同様に、ウィジェット分類においても興味深い示唆が得られています。モデルはウィジェット間の関係を理解する際に苦労することがあり、例えば、複数のサブエレメントから構成される大きなボタンを単一のウィジェットとしてではなく、最も大きなスペースを占めるサブエレメントとして認識する傾向があります。また、テキストに囲まれた小さなアイコンがテキストとして誤って予測されるケースもありますが、anyresの追加によりこれらの予測の正確性が向上しています。

Groundingタスクでは、モデルが誤ってターゲットエリアに隣接するテキストを強調することがあります。さらに、同一のテキストが複数存在する場合には、将来的なメソッドの拡張が可能であり、単一のボックスから複数ボックスへの回答を可能にすることで、モデルの有用性と複雑なテキスト検索シナリオでの精度が向上する可能性が示唆されています。

結果分析：高度なUIタスク

会話ではFerretの特異な能力を示しています。出力されるバウンディングボックスの正確性と関連性を評価するため、Ferret-UIとGPT-4Vの会話インタラクションの全てのボックスを手動で採点しています。その結果、Ferret-UIは91.7%、GPT-4Vは93.4%の正確さを示しています。Ferret-UIが生の座標を生成するのに対し、GPT-4Vは事前に定義されたボックスから選択するため、Ferret-UIのUIスクリーン上での接地能力が特筆すべきものであることがわかります。GPT-4Vのスコアは高いものの、予測を検証すると、時として質問に無関係な情報を提供する傾向があるため、Ferret-UIのより簡潔な回答が好まれる場合もあります。

また、Ferret-UIは、基本的および高度なタスクがUI要素の検出に依存しているため、検出モデルが見逃す要素（色、デザイン、使いやすさなど）を学ぶことができていません。例えば、GPT-4Vは詳細な説明を生成する際に、「全体的なデザインがAppleの美学に従い、ミニマリスティックでクリーンなダークテーマである」といった洞察を提供することはありますが、Ferret-UIは検出された要素のみに依存しているため、このような洞察を提供するような学習はされていません。

GPT-4VにおけるSet-of-Mark（SoM）プロンプティング手法はいくつかの制限を露呈しています。特に、多くの小さなUI要素が関与する場合にその効果が低下することが課題としています。これはAndroid検出タスクで頻繁に発生し、UIコンポーネントの小ささが原因でラベルが元のコンテンツを隠したり、意図したエリアを超えることがあります。さらに、評価を特定の候補地域に限定することは、モデルが任意の地域を自由に参照する能力を制限します。下図の例ではUI検出モデルが中央セクション全体を一つの要素として扱い、「BUY」ボタンを含むテキストや画像を覆ってしまいます。そのため、モデルは「BUY」ボタンを単独で言及することができません。

高度なUIタスクの実行におけるFerretのユニークな能力とともに、改善の余地を明らかにしています。

まとめ

この論文では、モバイルUIスクリーンとのやり取りをより深く理解し、向上させることに特化したマルチモーダル大規模言語モデル「Ferret-UI」を提案しています。異なる画面のアスペクト比に対応できるように慎重に設計された「anyres」と、基本的から高度なUIタスクまで幅広くカバーする学習サンプルのキュレーションにより、Ferret-UIはReferring、Grounding、Reasoningの各タスクで卓越した能力を発揮しています。Ferret-UIが様々なUIアプリケーションへの応用において顕著な進歩をもたらすことが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。