文章要約における新たな自動評価基準!QAGS

文章要約における新たな自動評価基準!QAGS

3つの要点
✔️ 質問生成・質問回答を組み合わせた文章要約の評価基準
✔️ 表面的な類似性でなくより重要な情報をもとに判断

✔️ 既存手法と比べ人間の判断と高い相関を発揮

Asking and Answering Questions to Evaluate the Factual Consistency of Summaries
written by Alex WangKyunghyun ChoMike Lewis
(Submitted on 8 Apr 2020)

Comments: Published by ACL 2020
Subjects: Computation and Language (cs.CL)

はじめに

自然言語処理においてモデルの性能を測定する主な方法は、何らかの自動評価基準を用いることです。例えば機械翻訳ではBLUE、文章要約ではROUGEなどが主に用いられます。

しかしこれらの主要な評価基準は、文の表面的な類似性を測ることしかできず、意味的な正確さなどの重要な情報を考慮することができません。この問題点については以前もBERTScoreの記事でも取り上げられています。

今回紹介するのは、文章要約における新たな自動評価基準であるQAGS(Question Answering and Generation for Summarization)です。既存のn-gramを用いたマッチングではなく、質問生成と質問回答を組み合わせることにより、人間の評価と非常に高い相関を達成しました。

この記事をシェアする