長文のQAタスクの精度向上！大規模言語モデルのlost in the middleの現象を緩和する、リプロンプティングと文脈内検索の組み合わせた新手法「R&R」

Large language models 2024年11月18日

3つの要点
✔️ R&R手法の導入：長文脈QAタスクにおける大規模言語モデルのパフォーマンスを高めるため、「reprompting（リプロンプティング）」と「In-context retrieval（文脈内検索）」の組み合わせに基づく新しい手法が開発。
✔️ lost in the middleの緩和：文書の中間部で関連情報が見失われる問題を軽減します。リプロンプティングは、大規模言語モデルが文書の始めや終わり、または主要な指示に近い位置に偏る現象を軽減し、関連情報と指示との距離を縮めることで、回答の精度を向上。
✔️ 精度とコストの最適化：チャンクワイズアプローチと組み合わせることで、R&R手法は長文脈に対しても大規模言語モデルの性能を高めることが可能。より大きなチャンクの使用を可能にしつつLLMコールの回数とトークンの使用を最小化し、精度の低下を抑制。

Can't Remember Details in Long Documents? You Need Some R&R
written by Devanshu Agrawal, Shang Gao, Martin Gajek
(Submitted on 8 Mar 2024)
Comments: Published on arxiv. For associated code repository see this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Information Retrieval (cs.IR); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

自然言語処理の分野では、大規模言語モデルの台頭によって著しい発展を遂げています。これらの革新的なモデルでは、ユーザーが簡単な「プロンプト」と呼ばれるテキストを入力することで、あらゆる種類のタスクを実行できるようになりました。しかし、質問応答（QA）タスクにおいては、長いテキストを扱うと、情報が「lost in the middle（中間で迷う）」という問題に直面す流ことがよく知られています。

最近、128kおよび200kトークンのコンテキストウィンドウをサポートするGPT-4 TurboやClaude-2.1などの非常に長いコンテキストに対応した大規模言語モデルがリリースされました。これらの大規模言語モデルは長いコンテキストをサポートしていますが、入力プロンプトが非常に長くなると、その応答の品質が低下する傾向があります。Liu et al.（2023）では、たとえ16kトークンのコンテキストであっても関連コンテキストがドキュメントの中間に位置する場合、大規模言語モデルのドキュメントベースのQAにおける精度が、始めと終わりに比べて著しく低下することがわかっています。これが「lost in the middle（中間で迷う）」と呼ばれる現象です。

これに対応するために、この論文では「reprompting（リプロンプティング）」と「In-context retrieval（文脈内検索）」を組み合わせた新しいアプローチ「R&R」を提案しています。この手法では、質問に対する指示をドキュメント全体にわたって繰り返し、最も関連する情報を効率的に抽出することができます。これによりQAの精度を向上させるとともに、長い文脈に対しても大規模言語モデルの性能を高めることを目指しています。

この論文では、この革新的なアプローチがどのように機能するかを詳細に説明し、長文のQAタスクでの「lost in the middle（中間で迷う）」効果を軽減するための有効な戦略を提案しています。また、実験を通じて、「reprompting（リプロンプティング）」と「In-context retrieval（文脈内検索）」が、大規模言語モデルの利用における新たな可能性を示しています。この手法は、長い文章を扱う際の精度と効率性を高めることで、NLP技術の応用範囲を広げる可能性を秘めています。

手法

この論文では、文書をもとにした質問応答（QA）タスクにスポットライトを当て、大規模言語モデルを使った画期的な手法を提案しています。

このアプローチでは、与えられた文書の文脈を元にして質問に答えるよう大規模言語モデルに依頼します。そのために、プロンプトを3つのセクションに分け、指示を明確にしています。質問とその回答指示は最初にタグで囲まれ、続いて文書自体がタグで囲まれます。

最後に、大規模言語モデルが回答を生成する直前に、再度指示が繰り返されます。この繰り返しは、以前からある手法を参考にしたもので、文書中で情報が見失われることなく、効果的に回答を導くことを目的としています。

また、文書が「ページ」として分割されていることを前提としています。これらのページは、段落や文など、文書の自然な区切りに対応しており、標準化のためにページと呼ばれます。<PAGE {p}> . . . </PAGE {p}>タグでで囲まれており、{p}は適切なページ番号に置き換えられます。このアプローチにより、大規模言語モデルが文書全体をより効率的に処理し、質問に関連する情報を的確に抽出できるようになります。

さらに、「reprompting（リプロンプティング）」という技術を導入しています。これは、大規模言語モデルが文書の始めや終わり、または主要な指示に近い位置に偏る「lost in the middle（中間で迷う）」現象を軽減するためのものです。リプロンプティングでは、<INSTRUCTIONS_REMINDER> あなたのタスクは . . . </INSTRUCTIONS_REMINDER>という形式で、元の指示をほぼそのまま含むリマインダーブロックを、文書内の指定されたトークンごとに、PAGEブロックの外側に挿入します。これにより、文書の任意の位置で関連情報と指示との距離を縮め、大規模言語モデルの回答精度を向上させることが期待されます。

さらに、「In-context retrieval（文脈内検索）」とチャンキングを導入しています。「In-context retrieval（文脈内検索）」は、質問に関連する情報を文書から抽出するタスクが、直接質問に答えることよりも一般にシンプルであるという考えに基づいています。これは、情報抽出では再現率を精度に優先するためです。このプロセスは2段階に分けて行われ、まずは質問に最も関連するページを特定し、次にそのページのみを含む省略された文書を用いて質問に答えます。この方法は、大規模言語モデルが効率的に情報を処理できるように設計されています。また、「reprompting（リプロンプティング）」と「In-context retrieval（文脈内検索）」を組み合わせることで、文書の中間部にある重要な情報を見落とさずに抽出できるようになります。具体的には、文書全体にわたって検索指示をリマインドすることで、大規模言語モデルが中間部近くに埋もれた関連ページを見つけ出すのを助けます。

また、チャンキングでは、文書を重複しない連続するチャンクに分割し、それぞれ独立して「In-context retrieval（文脈内検索）」を実行します。これにより、最も関連性の高い情報を効率的に抽出し、精度を維持しながらLLMの呼び出し数を減らすことが可能になります。チャンクが十分に大きければ、チャンク内での「reprompting（リプロンプティング）」も行うことができ、これにより精度と効率のバランスがさらに最適化されます。これにより、より複雑な文書に対しても高いパフォーマンスを実現する可能性が広がります。

実験と結果

この論文では、文書に基づく質問応答（QA）タスクにおける「R&R」の有効性を検証しています。各データセットと長文脈メソッド（チャンキング除く）について、異なる文書長さ（d）で得られたファジーマッチスコアをまとめた下表によると、リプロンプトは広範囲にわたりベースラインを上回り、特にGPT-4 Turboを使用し、d=80kの場合、R&Rがさらなる精度向上をもたらす傾向が見られます。

リプロンプティングを行う際の追加コストは最小限で、d=80kでベースラインと比較して約1.15%多くの入力トークンを消費しますが、出力トークンに関しては追加費用は発生しません。R&Rも同様にd=80kでベースラインより約1.15%多くの入力トークンを必要としますが、ICRステップに追加の大規模言語モデルのコールが必要であり、サンプルあたり平均83の出力トークンが必要となります。これは、ベースラインやリプロンプトの場合の43出力トークンと比較して高い数字です。しかし、これらの結果から、R&Rが文書ベースQAにおいて大規模言語モデルの効果的なコンテキスト範囲を拡張する上で有効であることが示唆されています。

さらに、長い文脈とリプロンプティングの利点を、短い文脈やチャンクベースのアプローチと比較するために、チャンクワイズICRおよびチャンクワイズR&R（リプロンプティングを加えたもの）を実行しました。下表では、各データセットと手法におけるファジーマッチスコアが示されており、ICRおよびR&Rを実施するチャンクサイズ（c）を変えています。

一般的に、ほとんどのデータセットでチャンクサイズが大きくなると精度が低下する傾向があり、これは追加のフィラーコンテキストにより検索精度が低下するためです。しかし、リプロンプティングはチャンクサイズが大きくなっても精度の低下を抑え、実際により大きなチャンクを使用可能にする可能性を示唆しています。

これは精度とコストのトレードオフの観点から重要な意味を持ちます。より小さなチャンクは、より多くのLLMコール（チャンクごとに1つ、集約後にQA）、入力トークン、出力トークンを必要とします。特に、出力トークンはコストがかかるため、GPT-4 Turboで入力トークンの価格の3倍に相当し、大規模言語モデルの実行時間は出力トークンに応じて線形に増加します。したがって、リプロンプティングがより大きなチャンクを可能にすることで、このトレードオフを軽減し、より少ない大規模言語モデルのコールと出力トークンを必要としながら、精度の損失を最小限に抑えることができることが示唆されます。さらに、リプロンプティング自体はわずかな入力トークンの追加を必要とするものの、このコストはより大きなチャンクでの入力トークンの削減によって相殺されます。

また、文書から最も関連性の高いページを抽出することが、直接的な質問応答よりも簡単であるという仮説を立て、この文脈内検索（ICR）へのアプローチを採用しています。前者の場合、再現率を精度より優先することが理由です。直接のドキュメントベースQAと「質問に答えるのに最も関連するページを抽出する」タスクを比較することで、この仮説を検証しています。初期のページに誤解を招く情報が含まれるためNQを、また複数ページにわたって関連コンテキストが散在するためHotPotQAを実験から除外しまています。しかし、SQuADとPubMedでは、文書長さd = 40kの例で、ページの抽出が直接の質問応答よりも顕著に正確であることが明らかになっています。

リプロンプトの頻度に関して、10kトークンごとという選択を検証し、これが全データセットを通じて最も高いQA精度を達成していることがわかります。

リプロンプトの配置については、関連コンテキストの直前にのみリプロンプティングすることが精度を顕著に向上させるという仮説をテストしています。特に、「ゴールドパッセージ」を含むとマークされたPAGEブロックの前に、単一のINSTRUCTIONS_REMINDERブロックを挿入する方法は、d = 40kの文書長で3つのデータセットのうち3つにおいて、一様に10kトークンごとにリプロンプティングする方法よりも優れたQA精度を達成しています。これは、リプロンプティングが関連するコンテキストとタスクの指示との距離を縮めることにより効果を発揮することを示唆しています。

さらに、元の指示を単にほのめかすだけのリプロンプティングが、元のリプロンプティングよりも性能が劣ることを発見しています。これは、リプロンプティングが単なる繰り返しではなく、質問と関連コンテキストの間の距離を縮めることが重要であることを示しています。最後に、文書の開始時にリマインダーブロックを配置するリプロンプティングのテストは、元のリプロンプティングよりも大幅に悪い結果をもたらしました。これらの結果は、リプロンプティングが単なる繰り返しではなく、特定の戦略的配置による効果を持つことを示しています。

まとめ

この論文では、ドキュメントベースの質問応答（QA）タスクにおける長い文章に対する大規模言語モデルのパフォーマンス向上の可能性を探るために、プロンプトベースの手法「R&R」を開発しています。この手法は、特に「lost in the middle（中間で迷う）」の緩和に有効であることが確認されています。さらに、リプロンプティングが関連コンテキストとタスク指示との間の距離を最小化することで効果を発揮することが示唆されています。

抽出タイプのQAタスクにおいては、チャンクワイズのアプローチが確固たる基盤を提供しますが、R&Rをチャンク内で実施することも可能です。この設定下でも、リプロンプティングが有益であり、より大きなチャンクの使用を可能にすることで大規模言語モデルのコールの回数を減らし、トークンの使用を最小化しつつ、精度の低下を抑制できることがわかりました。R&Rは、精度とコストのバランスを取る上で、チャンクワイズのアプローチを柔軟にし、精度が極めて重要な実用的な応用におけるコスト削減を実現しています

今後の研究の方向性は多岐にわたり、期待されます。R&Rを他のプロンプトベースの手法と組み合わせることで、さらにパフォーマンスを向上させる可能性があります。また、「文脈内チャンキング」のような新たなアプローチを検討することで、精度とコストのトレードオフをさらに最適化できるかもしれません。文書のより総合的な理解が求められるタスクへのリプロンプティングの応用、例えば要約作成など、新たな研究領域を開拓する可能性もあります。最終的に、これらはあくまでプロンプトベースの手法に過ぎませんが、その利点と制限を深く理解することは、長い文章に対する大規模言語モデルの振る舞いを解明し、さらなる改善を促すアーキテクチャ変更のヒントが得られる可能性もあります。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。