最新AI論文をキャッチアップ

100kトークン以上の長文のみから構成された書籍要約のためのデータセット、FABLESが登場!

100kトークン以上の長文のみから構成された書籍要約のためのデータセット、FABLESが登場!

Large language models

3つの要点
✔️ 26冊の書籍の要約と3158個のclaimからなるアノテーションのデータセットであるFABLES(Faithfulness Annotations for Book-Length Summarization)を構築
✔️ 3つのステップからなるワークフローにより、データセット構築にかかる費用と時間を大幅に削減することに成功
✔️ 統計的・定量的分析により、複数のLLMモデルの書籍要約に対する性能を明らかにした

FABLES: Evaluating faithfulness and content selection in book-length summarizaiton
written by Yekyung Kim, Yapei Chang, Marzena Karpinska, Aparna Garimella, Varun Manjunatha, Kyle Lo, Tanya Goyal, Mohit lyyer
(Submitted on 1 Apr 2024 )
Comments: 
Published on arxiv.
Subjects: Computation and Language(cs.CL); Artificial Intelligence(cs.AI)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

long-context large language models(LLM)は、技術的には100kトークン以上ある本のような長さの文章を要約することができることから、近年大きな関心を集めていました。

一方でこうした要約は、faithfulness(出典に対する回答の忠実性)claim(要約における主張部分)の関連性が重要であるにもかかわらず、この領域における最近の研究では、一貫性のような入力に依存しない側面に焦点を当てたものしか行われてきていませんでした。 

この問題には、入力文章の長さと複雑さにより、それらを読んで理解するための人間のアノテーターを雇うのに莫大な費用と時間がかかるといった背景があり、こうした実情がLLMの研究における大きなボトルネックとなっていました。

本稿ではこうした問題点を解決するために、LLMが生成した26冊の書籍の要約と3158個のclaimからなるアノテーションのデータセットであるFABLES(Faithfulness Annotations for Book-Length Summarization)を構築し、複数のLLMモデルを用いた比較実験を行うことで、LLMの書籍要約タスクに新たな可能性を示した論文について解説します。  

FABLES(Faithfulness Annotations for Book-Length Summarization)

本論文にて新たに構築されたデータセットであるFABLES(Faithfulness Annotations for Book-Length Summarization)は、LLMによって生成された書籍の要約のfaithfulnessと全体的な品質に関する人間のアノテーションから構成されています。

前提として、要約とアノテーションから構成される大規模データセットを構築する際、LLMが生成した要約にアノテーションをつけるためだけに、アノテーターに100kトークン以上の長文を読んでもらうのは費用的にも時間的にも不可能であることが大きなボトルネックになっていました。

本論文ではこの問題を、アノテーターが読んだことのある書籍のみをデータセットに用いるという非常にシンプルな方法によって解決することに成功しています。

これにより、アノテーターがデータセットを理解するための時間を削減することができ、100kトークン以上の長文を積極的にデータセットに含めることが可能になっています。

これに加えて本論文では、下図に示すように3つのステップによってデータセットの構築を行いました。

(a)Summarization

まず初めに、文章の要約を行うにあたって以下のリストに記載されている、2023〜2024年に出版された26冊の書籍の電子コピーを用意しました。

前述したように、全ての書籍はアノテーターによってすでに読まれたものであり、書籍の平均の長さは121kトークンと既存のデータセットよりもはるかに長い文章を扱っていることが分かります。

また、これらの書籍を要約するために、本論文では既存手法であるhierarchical merging strategy(Chang et al., 2023)を採用し、GPT-3.5-Turbo・GPT-4-Turbo・Mixtral・Claude-3-Opusを基盤モデルとして使用しています。

(b)Claim Extraction

次のステップでは、得られた要約を複数のclaimに分解することで、詳細なアノテーションを可能にします。

例としてClaude-3-Opusによって生成された要約とGPT-4によって抽出されたclaimは以下のようになります。

(c)Human Evaluation

最後のステップでは、アノテーター(14人の英語のネイティブスピーカー)によるアノテーションを行います。

アノテーターは、ランダムな順序で表示されるLLMが作成した要約を全てアノテーションするように割り当てられ、本ステップを採用することで、合計で26冊の書籍の130個の要約と3158個のアノテーションによって構成される、既存研究には類を見ない大規模データセットを構築することに成功しました。

さらに注目すべきは、本データセットを構築するのにかかった費用は5.2kドル、かかった時間は約11時間という非常に低予算かつ短時間であったという点であり、これは大規模データセットの構築における大きなブレイクスルーであると言えます。

FABLESにおける要約の分析

本論文では加えて、FABLESに含まれる3158個のアノテーションの統計的および定性的分析を行いました。

LLMが生成した要約から抽出されたclaimのうち、アノテーターによってFaithful(忠実である)・Unfaithful(忠実でない)・Partial support(部分的に支持される)・Can't verify(検証不可能)と評価された割合を下の表に示します。

表より、Claude-3-Opusが最も忠実な要約を生成しており(Faithful=90%)、その次に大きくスコアを落としてGPT-4とGPT-4-Turboが続いていることが分かります。

これらの結果から、書籍要約タスクにおいてはClaude-3-Opusと他のモデルには大きな性能差があることが明らかになりました。

加えて、定性的な分析結果を下図に示します。

本分析結果から、Unfaithful(忠実でない)とアノテーションされたclaimの多くは、特定の出来事に関するもの(31.5%)か何らかの性格や関係の状態に関するもの(38.6%)であることが明らかになりました。

まとめ   

いかがだったでしょうか。今回は、LLMが生成した26冊の書籍の要約における3158個のclaimに関するアノテーションのデータセットであるFABLES(Faithfulness Annotations for Book-Length Summarization)を構築し、複数のLLMモデルを用いた比較実験を行うことで、LLMの書籍要約タスクに新たな可能性を示した論文について解説しました。

本論文では、アノテーションタスクの前に各書籍を読んだことのあるアノテーターを採用する工夫により、これまでにはない大規模な長文のアノテーションデータセットを構築することができており、これは今後のデータセット構築におけるスタンダードになるのではないでしょうか。

加えて本論文にて行われた分析は、「LLMの書籍要約タスクにおいてなぜ精度悪化が起こるのか」という問いに対しての大きなヒントとなる結果であり、本論文を基にさらに高精度のLLMモデルが登場するのが楽しみです。

今回紹介したデータセットや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。 

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする