最新AI論文をキャッチアップ

【ReALM】LLMによる画面上のエンティティ位置を活用した参照解決

【ReALM】LLMによる画面上のエンティティ位置を活用した参照解決

Large language models

3つの要点
✔️ 参照解決のための新モデル「ReALM」を提案。従来の大規模言語モデルや参照解決器と比較して優れた性能を達成
✔️ 画面上のエンティティの位置情報を利用し、テキストのみを使用してエンティティをエンコードすることで、画面上の参照を解決
✔️ 画面上のエンティティ、会話中のエンティティ、バックグラウンドのエンティティを含む複数のデータ形式に対応可能

ReALM: Reference Resolution As Language Modeling
written by André Nitze
(Submitted on 29 Mar 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

私たちの日常会話には、「彼ら」や「それ」といった、文脈から読み取る必要がある参照表現が頻繁に使われます。こうした文脈を理解する能力は、ユーザーがエージェントに要求を伝えたり、会話を進めたりする際に不可欠です。また、ユーザーが自分の画面上で見ている内容に関して問い合わせができるようにすることも、音声アシスタントにおけるハンズフリー体験を実現するためにも重要です。

大規模言語モデルは、従来の参照表現の理解(参照解決)を含む多段階パイプラインを不要にする可能性を示しています。しかし、依然としてパイプラインが重要であり、エンドツーエンドのアプローチでは対応しきれない場合も多々あります。特に、プライバシーを重視したり、限られた計算資源の中で効率よく動作する必要がある環境では、大きなモデルを用いることが現実的ではない場合もあります。

さらに、モデルがAPIと統合する場合や、上流および下流のコンポーネントと情報をやり取りする必要がある場合には、大規模言語モデルと既存のパイプラインの全面的な見直しが必要になることがあります。これにより、焦点を絞ったモデルを使用することで、既存の参照解決モジュールを透明に改善し、システム全体の解釈可能性を高めることが可能になります。

さらに、この論文で取り上げられている参照解決のタスクは、ユーザーがデバイスとの直接的なやり取りから生じる会話の履歴だけでなく、画面上や背景にあるエンティティにも言及できる能力を含んでいます。このように伝統的な自然言語処理タスクの探求には、大規模言語モデルが暗黙的に対処できる場合でも価値があります。

この論文では、画面上のエンティティとその位置を解析し、画面内容を視覚的に表現する純粋なテキスト表現を生成する新しいアプローチを提案しています。これにより、エンティティがどこにあるか、周囲のテキストは何かを言語モデルが理解するための文脈が提供されます。これは、画面からの文脈をエンコードするための大規模言語モデルを使用した初の試みです。

タスク

この論文では、ユーザーが実行したいタスクと関連するエンティティが与えられた際に、そのクエリに最も関連するエンティティ(または複数のエンティティ)を特定するタスクを定式化しています。エンティティは次の3つのタイプに分類されます。

  • 画面上のエンティティ:ユーザーの画面に現在表示されているエンティティ。
  • 会話のエンティティ:会話に直接関連するエンティティ。ユーザーの以前の発言(例:「ママに電話をかけて」と言った場合のママの連絡先)や仮想アシスタントが提供した情報(例:場所やアラームのリスト)から来ることがある。
  • バックグラウンドのエンティティ:ユーザーの直接的な視界や会話には現れないが、バックグラウンドプロセスから来るエンティティ(例:鳴り始めたアラームや背景で流れる音楽)。

このタスクは、大規模言語モデルによる複数選択問題として設定され、ユーザーの画面上に表示されるエンティティから最も適切な選択肢を出力することが求められます。回答は「これらのいずれでもない」という選択も可能になっています。評価では、モデルがエンティティを任意の順序で出力することができるようになっており、例えば正解がエンティティ8、7、4の場合、これらのエンティティがどの順序であっても評価として受け入れられます。このアプローチにより、モデルの柔軟性と正確性の向上を目指しています。

データセット

この論文で使用しているデータセットは、アノテーターの協力を得て作成されたデータや、合成によって生成されたデータで構成されています。各データには、ユーザーの問い合わせと関連するエンティティのリストが含まれており、それぞれの問い合わせに対応する基準となるエンティティが明記されています。エンティティには、その種類や名前、その他のテキスト情報(例えば、アラームのラベルや時刻など)が含まれています。また、画面上の文脈が関連するデータには、そのエンティティの境界ボックスと、その周囲にある非エンティティテキスト要素のリストが含まれています。

会話データでは、ユーザーがエージェントとの対話中に生成するエンティティに焦点を当ててデータが収集されています。評価者には合成されたエンティティリストが含まれたスクリーンショットが提供され、リストから任意に選ばれたエンティティを明確に指すクエリを作成するよう依頼されています。例として、ビジネスリストやアラームリストが評価者に提供され、リスト内の特定のエンティティを指示するクエリが求められます。

合成データでは、その取得は、テンプレートを基にしたデータ生成に依存しています。ユーザーの問い合わせとエンティティのタイプのみで参照を解決できる場合に特に有効です。合成データを生成するためには、2つのテンプレートが用いられます。最初の基本テンプレートには、言及、エンティティ、必要に応じたスロット値が含まれ、2番目の言語テンプレートでは、基本テンプレートで定義された参照を対象とするクエリのバリエーションが追加されます。データ生成スクリプトは、これらのテンプレートを利用して、言及とスロット値を置換しながらクエリを生成します。

画面上のデータは、電話番号、メールアドレス、物理的住所情報を含むさまざまなウェブページから収集されています。このデータのアノテーションは2段階に分かれており、第1段階ではスクリーンショットからクエリを抽出し、第2段階では与えられたクエリに基づいてエンティティとその言及を特定します。評価者はスクリーンショットを用いてクエリが視覚的エンティティの一つを言及しているかどうか、またクエリが自然に聞こえるかどうかを判断し、指定されたクエリで参照されるエンティティを特定し、そのエンティティを指すクエリの部分にタグを付けます。

モデル

この論文では、提案モデル「ReALM」を導入し、その性能を2つの異なるベースラインアプローチと比較して評価しています。一つは、従来の大規模言語モデルをベースとしていない参照解決器「MARRS」であり、もう一つは最新の大規模言語モデル「ChatGPT」(GPT-3.5およびGPT-4)です。

大規模言語モデルをベースとしていないベースラインとして、Ates et al.(2023)によって提案されたシステム「MARRS」を利用しています。このシステムは、画面上のエンティティに加え、会話や背景のエンティティも扱うことが可能です。このシステムの再実装を通じて、会話、画面上、および合成データを含むデータセットを用いて学習を行っています。

もう1つのベースラインは、2024年1月24日時点で利用可能なChatGPTのGPT-3.5およびGPT-4のバージョンです。これらのモデルは、特に画像を含む入力を活用することで、画面上の参照解決タスクにおいて顕著な性能向上が見られます。この論文で使用したChatGPTのプロンプトとプロンプト+画像の組み合わせは、新たな試みとして導入されています。

そして、この論文で提案されているアプローチでは、FLAN-T5モデル(Chung et al., 2022)を用いた大規模言語モデルのファインチューニングを実施しています。解析された入力をモデルに供給し、既定のファインチューニングパラメータに基づいて最適化を進めています。エンティティはモデルへの供給前にシャッフルされ、位置に依存した過学習を防止しています。

会話参照は、タイプベースと記述的な参照の二つに分類されます。タイプベース参照では、ユーザーのクエリとエンティティのタイプを組み合わせて使用し、記述的参照ではエンティティの特定の属性を利用して独自の識別を行います。このアプローチは、複雑なエンティティ識別タスクにおいて高い精度を実現します。画面上の参照では、上流のデータディテクターがテキスト解析を行い、関連エンティティを抽出します。これらのエンティティはテキストのみを使用して言語モデルにエンコードされ、画面を効果的に左から右、上から下へとテキストで表現する新しいアルゴリズムが開発されています。

これらの革新的なアプローチにより、参照解決の課題に対して、より正確で効率的な解決策を提供することを目指しています。

実験結果 

結果は下表のようになっています。全体的に提案モデルがすべてのタイプのデータセットでMARRSモデルを上回っていることがわかります。また、提案モデルはパラメータ数が桁違いに多いGPT-3.5よりも優れた性能を示しています。さらに、最新のGPT-4と同等の性能をより軽量で高速なモデルで実現しています。

特に注目すべきは、画面上のデータセットにおける成果です。スクリーンショットを使用したGPT-4と比較しても、テキストエンコーディングアプローチを採用した提案モデルがほぼ同等の性能を達成しています。加えて、異なるサイズのモデルで実験を行った結果、モデルのサイズが大きくなるにつれて性能が向上する傾向があり、この差は画面上のデータセットで特に顕著であり、タスクの複雑性を示唆しています。

未知のドメイン(アラーム)におけるモデルのゼロショット性能をケーススタディとして検証しています。その結果、大規模言語モデルベースのアプローチがFTモデルを上回ることが確認され、特にReaLMとGPT-4は未知のドメインで非常に似た性能を示しています。

ユーザーリクエストに基づくファインチューニングにより、ReaLMはドメイン特化した質問をより深く理解できるようになっています。例えば、GPT-4は特定の設定だけに関連すると誤解しましたが、ReaLMは背景にあるホームオートメーションデバイスも考慮に入れることができ、より正確な参照認識を実現しています。これはReaLMがドメイン特化データで学習されているため、このような問題を回避できるためと考えられます。

まとめ 

この論文では、大規模言語モデルを用いて参照解決を行う方法を提案「ReALMしています。これは、エンティティ候補を自然言語テキストとしてエンコードすることによって達成されます。特に、画面上に存在するエンティティが、それらの相対的な空間位置を保持しつつユーザーの画面を効果的に要約する新しいテキスト表現を使用して大規模言語モデルに渡される方法を示しています。ReALMが従来のアプローチを上回り、さらに、ずっと少ないパラメータを有しており、テキスト領域のみで画面上の参照にも関わらず、現在の最先端の大規模言語モデルであるGPT-4とほぼ同等の性能を示していることを確認されています。また、ドメイン特化したユーザーの発話においてGPT-4を上回るため、ReaLMはパフォーマンスを損なうことなくデバイス上で存在可能な実用的な参照解決システムにとって理想的な選択です。

この論文で提案されているアプローチは画面上のエンティティの位置を効果的にエンコードするものですが、微妙な位置理解に依存する複雑なユーザークエリを解決するために必要な情報が失われることがわかりました。したがって、画面をグリッドに分割し、これらの相対的な空間位置をテキストにエンコードするなど、より複雑なアプローチを探求することは、難しいかもしれませんが、将来的に有望な研究分野だと考えられます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする