最新AI論文をキャッチアップ

インフォグラフィックスからUIまで画像とテキストを理解する「ScreenAI」

インフォグラフィックスからUIまで画像とテキストを理解する「ScreenAI」

Large language models

3つの要点
✔️ 画像とテキストの両方を理解し、広範なタスクに対応可能な「ScreenAI」を開発
✔️ ViTとmT5言語エンコーダーを組み合わせ、柔軟な画像処理が可能
✔️ 自動データ生成を採用し、画面構成の識別やスクリーンショットのラベリングを行い、データの品質を向上

ScreenAI: A Vision-Language Model for UI and Infographics Understanding
written by Gilles Baechler, Srinivas Sunkara, Maria Wang, Fedir Zubach, Hassan Mansoor, Vincent Etter, Victor Cărbune, Jason Lin, Jindong Chen, Abhanshu Sharma
(Submitted on 7 Feb 2024 (v1), last revised 19 Feb 2024 (this version, v2)])
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

インフォグラフィックス(チャート、ダイアグラム、イラストレーション、地図、表、ドキュメントレイアウトなど)は、複雑なデータやアイデアをシンプルなビジュアルに変換する能力によって、長年にわたりコミュニケーションの重要な要素とされてきました。この能力は、レイアウトの工夫や視覚的な手がかりを通じて、情報を直感的に理解しやすくすることから生まれます。デジタル化が進む現代では、モバイルやデスクトップのユーザーインターフェイス(UI)が、同じようなデザインの原則や視覚言語を用いて、人と人、人と機械の間のコミュニケーションを豊かでインタラクティブなものにしています。

このような背景から、インフォグラフィックスとUIを統合的に理解するモデルの可能性が示唆されますが、その複雑さは大きな挑戦を伴います。この挑戦に応えるべく、この論文ではVision-Language Model(VLM)である「ScreenAI」を開発しています。

このモデルは、インフォグラフィックスやUIに関する質問応答、要素の注釈付け、要約、ナビゲーションなど、広範なタスクに対応します。ScreenAIは、最新の技術を組み合わせ、ビジュアルタスクをテキスト問題へと再定義することで、これらの課題にアプローチしています。

この論文では、UIとインフォグラフィックスの共通点を活かし、これらの分野を包括的に理解するための新しいアプローチを提案しています。また、自動でトレーニングデータを生成する技術や、事前学習と微調整のための新しい方法も開発しています。さらに、ScreenAIの有効性を検証するための3つの新しい評価データセットも提供しています。

ScreenAIの革新性は、UIからインフォグラフィックス、そしてそれを超えるあらゆるデジタルコンテンツ理解タスクに対応するVLMとしての位置づけを確立しています。46億パラメータという適度な規模ながら、このモデルは公開されているインフォグラフィックスの質問応答ベンチマークで最先端のパフォーマンスを達成し、サイズが10倍以上の他のモデルを上回っています。モデルのサイズを増やすことでパフォーマンスが向上することが確認されており、将来的にさらなる改善が期待されます。 

手法

この論文で提案しているモデルは、画像とテキストの両方を理解するために設計されています。このモデルは、画像解析のためのViT(Vision Transformer)と、テキスト処理のためのmT5言語エンコーダーを組み合わせたマルチモーダルエンコーダーブロックを核としています。このアプローチは、PaLIモデルファミリーのアーキテクチャに触発されており、さまざまなビジョンとマルチモーダルタスクをテキストと画像の入力からテキストの出力へと変換する能力を有しています。

このモデルの独自性は、画像をさまざまなパッチングパターンで処理できる柔軟性にあります。従来のPaLIアーキテクチャでは固定グリッドのパッチのみが可能でしたが、私たちはPix2Structで紹介された技術を採用し、入力画像の形状に基づいて任意のグリッド形状の画像パッチを生成できるようにしています。これにより、異なる解像度やアスペクト比を持つ画像に柔軟に対応し、画像を無理に変形させることなく処理できるため、モデルの応用範囲が大幅に拡げています。特に、縦向きのモバイル画像と横向きのデスクトップ画像の両方に適応できることが強みになっています。

このモデルを開発するために、異なるサイズの3つのモデルを学習しています。これらは、それぞれ670M、2B、および5Bという膨大な数のパラメーターを持っています。670Mと2Bパラメーターモデルは、既に学習された単一モードのチェックポイントを基に構築され、画像処理能力と言語理解能力の向上に焦点を当てています。一方、5Bパラメーターモデルは、より複雑なマルチモーダル事前訓練チェックポイントを利用しており、画像とテキストの両方を理解し処理する能力を持っています。

学習では、まず大規模なデータセットを用いた自己教師あり学習から始めています。ここでは、人間の介入を最小限に抑えつつ、モデルが自ら学習する能力を高めることを目指しています。この段階では、画像エンコーダーと言語モデルの両方を訓練しますが、特に画像エンコーダーには新しい技術が導入されており、様々な種類の画像に柔軟に対応できるようになっています。

次に、モデルの精度をさらに高めるために、ビジョンエンコーダーの学習を一時停止し、リソース消費を抑えながら追加のトレーニングステップを実施しています。この工程を経て、モデルはさまざまなタスクに対する理解を深めています。

最終段階のファインチューニングでは、人間がラベル付けしたデータを使用して、モデルを特定のタスクに最適化しています。これには、質問応答(QA)関連のタスクを始めとする多種多様な課題が含まれています。QAタスクでは、まず一連のタスクでモデルをファインチューニングし、その後、個々のタスクに特化した追加学習を行っています。他のタスクについても、各タスクごとに個別のファインチューニングを施し、モデルの性能を最大限に引き出しています。 

自動データ生成

モデルの進化は、データの質と量に直結しています。そこで、この論文では膨大で多様なデータセットへのアクセスの重要性に目を向け、手動でのアノテーションの限界を超えるために、自動データ生成という革新的な手法を採用しています。特化した小規模モデルを駆使してデータを効率的かつ高精度に生成し、ラベリングするこのアプローチは、手作業による方法と比べて圧倒的なスケーラビリティとデータの多様性を実現しています。

このアプローチの第一歩は、モデルがテキスト要素、画面コンポーネント、その構造と階層を総合的に理解することです。この基礎から、モデルは幅広いユーザーインターフェイスを精確に解釈し、対応する能力を身につけます。さまざまなデバイスから収集したスクリーンショットは、UI要素やその関係性を詳細に記述するラベルでアノテートされます。このプロセスの核心には、DETR検出モデルを基盤としたレイアウトアノテーターがあり、幅広いUI要素を特定し、ラベリングします。さらに、アイコン分類器を用いたピクトグラムの分析、PaLI画像キャプションモデルによる説明的キャプションの生成、そしてOCRエンジンを通じたテキストコンテンツの抽出とアノテーションという、追加のステップを踏みます。これにより、画面の内容に対する全体的かつ詳細な説明が生まれます。

また、「スクリーンスキーマ」と呼ばれるこの総合的なアノテーションサンプルは、データ生成の中核を成し、入力画像から類似のスキーマを生成する事前学習タスクとしても機能しています。これにより、モデルはUIコンポーネントを識別し解釈するだけでなく、それらの相互関係を理解する能力を高めます。また、スクリーンスキーマは、大規模言語モデルとのインターフェイスとしても価値があり、画面コンテンツの構造化された詳細な表現をLLMに提供することで、より複雑で文脈に富んだタスクの創出を促します。

さらに、この論文では、データセットに新たな次元の多様性を加えるために、大規模言語モデル(LLM)を活用しています。特に注目したのは、質問-回答ペアを生成する能力に優れたPaLM 2-Sというモデルです。このプロセスは二段階に分かれており、まずは先に紹介したスクリーンスキーマを作成します。次に、このスキーマを含むプロンプトを大規模言語モデルに与え、新たな合成データの生成を促します。

この実践的なアプローチは、ある程度の試行錯誤とプロンプト設計の技術を要しますが、適切なプロンプトを見つけ出すことで、目的とするタスクを効果的に生成できるようになります。実際のプロンプトの例は、論文の付録で紹介されています。生成されたデータの品質保証のため、選択したデータに対して人間による検証を行い、高い品質基準を満たしていることを確認しています。

この新しいアプローチは、データセットに合成されたが現実に即したタスクの多様性をもたらし、事前学習データセットの深さと幅を飛躍的に向上させています。大規模言語モデルの自然言語処理の能力と、構造化されたスクリーンスキーマを組み合わせることで、様々なユーザーインタラクションやシナリオをシミュレートする能力を高めています。これにより、モデルの学習における自動データ生成の可能性は、さらに広がりを見せています。

データミックス

モデルの開発において、事前学習タスクとファインチューニングタスクの2つの重要なフェーズがあります。これらのフェーズは、モデルが実世界の複雑なシナリオを効果的に理解し、対応する能力を身につけるための基礎を築きます。事前学習に以下のタスクを選択されています。

初期段階の事前学習では、モデルに広範囲のスキルを教え込みます。画面上のUI要素の識別から、複雑な質問応答、画面ナビゲーション、そして内容の要約まで、様々なタスクを通じて、モデルは多様な実世界アプリケーションに対応できるように学習されます。これらのタスクは、モデルがテキストと非テキストコンテンツを理解し、文脈を読み取り、インターフェースを正確にナビゲートする能力を養います。ファインチューニングフェーズでは、人間の評価者によって検証されたラベルを使用して、モデルの理解をさらに深めます。この段階では、事前学習で築いた基盤の上に、特定のタスクやシナリオに対するモデルの精度と効率を高めます。事前学習タスクのすべての概要は下表です。

事前学習とファインチューニングを通じて、VQA CC3M、WebLI AltとOCRテキスト、チャートから表への翻訳など、さまざまな画像およびテキストデータソースを活用しています。これらのデータセットは、モデルが言語と視覚の両方の処理能力を堅牢に保つために不可欠です。

モデルの学習において、データセットのサイズに比例してタスクに重みを付け、マルチモーダルソースを取り入れることで、私たちのモデルは言語処理、視覚理解、ウェブコンテンツ分析など、多様なシナリオに効果的に対応できるようになります。これにより、モデルの汎用性とパフォーマンスが全体的に向上させています。

実験と結果

下表では、最も性能が良いScreenAIモデルを、画面やインフォグラフィックス関連のタスクでの最新技術(SoTA)と比較しています。

 

また、この論文では、OCRテキストを追加入力としてモデルに組み込むことで、タスクのパフォーマンスにどのような影響があるかを調査しています。PaLI-XおよびPaLI-3のファインチューニング実験に触発され、画面やドキュメント関連のタスクにOCRテキストを追加することが、性能向上に寄与することを確認しています。また、上表の結果からは、特にQAタスクにおいてOCRの追加がパフォーマンスを高める(例えばComplex ScreenQA、MPDocVQA、InfoVQAで最大4.5%の向上)ことが明らかになっています。しかし、OCRの使用は入力長を増加させ、学習速度を若干遅くするというデメリットもあります。さらに、推論時にOCRの結果が必要となります。

さらに、モデルサイズに関する実験では、670M、2B、および5Bという異なるサイズのモデルを使用しています。下のグラフから、画面タスクだけでなく、その他の公開タスクについてもベンチマークを利用し、モデルサイズが大きくなるにつれて性能が向上することがわかります。特に、InfoVQA、ChartQA、Complex ScreenQAなど、より高度な視覚テキスト処理や算数推論を必要とするタスクでは、2Bから5Bモデルへの移行で顕著な改善が見られます。これらの結果は、モデルの能力向上におけるOCRの組み込みとモデルサイズの選択が重要であることを示しています。

まとめ

この論文では、ScreenAIモデルと、インフォグラフィックス、ドキュメント画像、さまざまなUIと互換性のある複雑なデータおよび視覚情報を表現するための新しい統一スキーマを紹介しています。この統一表現は、これら全てのドメインからのデータを活用する自己監督学習タスクのミックスの設計を可能にします。

また、このミックスでの学習が、画面関連タスクやインフォグラフィックス、ドキュメント関連タスクへの肯定的な転移につながることを示しました。さらに、大規模言語モデルを使用したデータ生成の影響を示し、除去研究によりモデル設計の選択を正当化します。

これらの技術を適用し、公開ベンチマークの多くでSoTAを達成し、競争力のあるパフォーマンスを発揮するモデルを学習しました。ただし、このモデルが最高クラスである一方で、GPT-4やGeminiのような桁違いに大きなモデルとのギャップを埋めるためには、一部のタスクでさらなる研究が必要であることにも触れています。

さらなる研究を促進するために、この統一表現のデータセットと、より包括的なベンチマーキングを可能にする他の2つのデータセットをリリースするとしています。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする