日本語の質問応答能力を革新する新しい大規模データセット「JDocQAデータセット」

Large language models 2024年11月13日

3つの要点
✔️ JDocQAデータセットの開発：日本語の質問応答能力を測定するために設計された、視覚情報を含むドキュメントに焦点を当てた新しい大規模データセット。
✔️ 回答不可能な質問の学習効果：ドキュメント内で直接的な回答が不可能な質問を含めることで、モデルが不正確な回答を生成する傾向を抑制できることを確認。
✔️ マルチモーダルモデルの進化：GPT-4やInstructBLIPなどの最新モデルが、テキストと画像を組み合わせた質問応答タスクにおいて高い適応性と性能を示唆。

JDocQA: Japanese Document Question Answering Dataset for Generative Language Models
written by Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe
(Submitted on 28 Mar 2024)
Comments: LREC-COLING2024
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

スライド、報告書、ウェブページ、パンフレットなど、テキストとグラフィカル要素を含むドキュメントの理解は、マルチメディアドキュメントに関する質問に回答するためのインテリジェントエージェントにとって必要なスキルです。これらの要素を統合して理解する文書を視覚的に理解するような研究は進んでいますが、日本語ドキュメントを扱う際には、未だ課題があります。日本語ドキュメントは、左から右への水平スタイルと上から下への垂直スタイルの2つの書き方があり、エージェントは、これらの理解が必要があります。

この問題に対処するために、この論文では「JDocQAデータセット」を開発しています。JDocQAデータセットは、11,600の質問と回答ペア、4つの異なる質問カテゴリー、および1,000のマルチページ質問で構成されています。これは、複数形式の日本語ドキュメントを収集し、手動で質問-回答ペアのラベル付けをしています。完全にラベル付けされた大規模な日本語の文書質問応答データセットです。このデータセットは、質問に答えるためにドキュメント内のテキストだけでなく視覚情報も考慮する必要があるような実践的なケースも想定しています。また、文書に答えが直接書かれていない、回答不可能な質問も含めることで、モデルが生成する不正確な回答、いわゆる「幻覚（ハルシネーション）」を軽減する研究にも挑戦しています。

最近の大規模言語モデルとマルチモーダルモデルの進化は、この分野での可能性を大きく広げています。特に、GPT-4やInstructBLIPのようなモデルは、テキストと画像の両方を扱うことができ、マルチモーダルタスクにおいて優れた性能を示しています。これらのモデルをさらに専門的なドメインや言語に適応させるための研究が活発に行われており、JDocQAデータセットは、特に日本語における文書理解と質問応答タスクの進歩に貢献することを目指しています。

JDocQAデータセットを使用した実験では、回答不可能な質問を含む学習が、モデルが不正確な回答を生成する傾向を減らすのに役立つことが示されています。

データセットの概要

JDocQAは、日本語の質問応答能力を高めることを目的とした画期的なデータセットです。スライド、報告書、ウェブページ、パンフレットなど、テキストとグラフィカル要素を組み合わせた5,504件のドキュメントから成り、11,600の質問と回答ペアが含まれています。質問のカテゴリーは、はい/いいえ、ファクトイド、数値、自由回答の4つに分類され、各質問はドキュメントのテキストと視覚情報の両方を含んでいます。

データセットの統計は以下のとおりです。

はい/いいえの質問：1,855件
ファクトイドの質問：2,052件
数値の質問：1,866件
自由回答の質問：5,827件

このデータセットは、ドキュメントに関する質問に答えるために、モデルがテキストの理解だけでなく、視覚情報の理解も必要とするケースを想定しています。特に注目すべきは、ドキュメント内に明示的な回答が記載されていない「回答不可能な質問」も含まれている点です。これは、モデルが現実世界の応用で直面する可能性のある課題を模倣し、モデルが不適切な回答、いわゆる「幻覚」を生成する傾向を抑制するのに役立つとしています。

さらに、回答を得るために複数ページを参照する必要がある質問が1,788件、テキスト内に正しい回答が言及されていない質問が1,000件含まれています。これにより、モデルが多様な質問タイプに対応し、複雑なドキュメント構造を理解する能力を評価することを可能にしています。なお、下表では、JDocQAデータセットにおけるコンテキスト、質問、および回答の平均長を表しています。

また、下図は、JDocQAデータセットにおいて質問や回答で参照される視覚情報のカテゴリーを示しています。

さらに、文書質問応答データセットの比較は下表に示されています。

JDocQAデータセットは、質問応答システムの開発者にとって貴重なリソースです。これには、ドキュメントのコンテキストとテキストの質問に基づいてモデルがテキストの回答を生成するタスクが含まれ、リアルなアプリケーションで遭遇する幅広いユーザー質問に対応します。また、質問や回答で参照される視覚情報のカテゴリーを示すデータも提供し、マルチモーダルな質問応答システムの開発を促進します。

データセットの作成方法

JDocQAデータセットの作成方法の全体的な流れは、下図のようになっています。

まずはPDFの収集についてです。このデータセットの基盤となるのは、日本の政府機関や地方自治体が作成した広範な公開ドキュメントです。国立国会図書館のデジタルコレクションやウェブアーカイブプロジェクト、政府省庁のウェブサイトなどから、手動で多岐にわたるPDFドキュメントを収集しています。これらのドキュメントは、経済政策から教育政策、健康と衛生に至るまで、様々なトピックを網羅しています。また、図表や写真などの視覚的要素も豊富に含まれており、これが質問応答システムの開発において重要な役割を果たしているとしています。

また、ドキュメントからテキストを抽出するために、PyPDF2ツールを使用しています。紙のスキャンから作成されたPDFからは直接テキストを抽出することができないため、OCR（光学文字認識）技術を用いて代替のテキストソースを生成しています。抽出されたテキストは、誤って認識された記号や絵文字、重複した文字を除去することで正規化されています。

次にアノテーションについてです。43人のアノテーターが、豊富なテキストと視覚情報を含むドキュメント上で質問応答ペアのアノテーションを行っています。各ドキュメントに対して、2から4つの質問回答アノテーションが作成され、質問はテキストと視覚の両方の情報に基づいていました。また、アノテーターはAIツールを使用せずにアノテーションを行うよう指示されています。特に、回答不可能な質問を含むことで、データセットの現実性と実用性が高まるとしています。

また、マルチモーダルモデル用に、3種類の視覚入力画像を用意しています。1つ目はドキュメント全ページの画像、2つ目はアノテーターが指定したバウンディングボックスで切り取った表や図の画像、3つ目はアブレーションスタディ用の白紙の画像です。これにより、モデルが視覚情報をどのように処理し、質問応答に活用するかを詳細に分析することが可能になるとしています。

JDocQAデータセットの開発には、幅広いドキュメントの収集から厳密なテキストの抽出・正規化、そして多様な質問応答ペアのアノテーションまで、複数のステップが含まれています。この努力により、質の高いマルチモーダル質問応答システムの開発が可能となり、より現実的なシナリオでのアプリケーションへの応用が期待されます。

実験と結果

JDocQAデータセットを使用した一連の実験では、さまざまなテキスト入力モデルが試され、そのパフォーマンスが詳細に分析されています。これらの実験は、モデルがどの程度効果的に質問に回答できるかを測定し、特に「回答不可能な質問」をどのように処理するかに焦点を当てています。下表は実験結果の概要を示しています。

すべてのインスタンスでトレーニングされたモデルについてみると、回答不可能な質問を含む全てのデータで学習されたモデルは、gpt-3.5およびgpt-4を含む標準モデルと比較して、優れた結果を示しています。これは、特に大規模なモデルでは顕著でした。興味深いことに、回答不可能な質問を含む学習データを用いることで、モデルがより現実的なシナリオに適応し、全体的なパフォーマンスが向上することが示唆されます。

回答不可能な質問なしでトレーニングされたモデルについてみると、回答不可能な質問を除外して学習したモデルもテストされました。これらのモデルは、含まれている場合と比較して、平均スコアで若干劣る結果を示しています。これは、モデルが「幻覚」と称される問題、すなわち存在しない情報に基づいた回答を生成する傾向を減少させるために、回答不可能な質問をトレーニングデータに含めることの重要性を強調しています。

StableLM-InstructBLIP-Alphaのようなマルチモーダルモデルは、参照された表や図の切り取り画像を使用した場合に特にパフォーマンスが向上しています。これは、テキスト入力だけでなく、視覚入力が質問応答タスクにおいて重要な役割を果たすことを示唆しています。

また、トークン長の違いがモデルのパフォーマンスに与える影響も検討されています。長いトークン長を持つモデルは、より良い結果を示す傾向がありますが、計算コストが高いというデメリットもあります。

異なる文書タイプに対するモデルのパフォーマンスも分析され、パンフレット、スライド、レポートドキュメントなど、各タイプがモデルに与える影響も評価されています。これにより、特定の文書タイプに対して最適化されたモデルの開発が可能になります。

また、実験結果の質的分析では、モデルが生成した回答の具体例が示され、特に回答不可能な質問に対するモデルの反応が注目されています。

また、人間による評価が行われ、生成された回答の正確性と信頼性が検証されています。

これらの実験結果全体から、JDocQAデータセットを使用した質問応答システムの開発において、多様なアプローチが試され、その有効性が検証されています。特に、回答不可能な質問をトレーニングデータに含めることの重要性が強調され、現実の応用におけるモデルの適応性が向上することが示されています。

まとめ

この論文では「JDocQAデータセット」という新しい大規模データセットを提供しています。これは、日本語の質問応答タスクに新たな視点を提供しています。視覚情報とテキスト情報の融合を通じて、より深い理解と応答能力を持つモデルの開発を目指すものです。特に、ドキュメントから直接答えを見つけることができない「回答不可能な質問」を含むことで、モデルが生成する不正確な回答、いわゆる「幻覚」を減少させる効果があること�を、このデータセットを使用した実験で確認しています。

実験結果からは、質問応答システムが直面する多様な挑戦に対処するためのJDocQAデータセットの有用性を示唆しています。はい/いいえ質問から自由回答質問に至るまで、幅広いカテゴリーにわたる質問に効果的に対応できることが示されています。さらに、回答不可能な質問を正確に予測することは、モデルの全体的なパフォーマンス向上に寄与する可能性があることが明らかになっています。

JDocQAデータセットは、質問がドキュメント内のテキストに明示的に答えられていない場合でも、賢く対応できるインテリジェントな質問応答システムの開発に貢献しています。これによって、より現実に近いシナリオでのアプリケーションが可能となり、質問応答技術のさらなる進歩が期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。