文章要約における新たな自動評価基準!QAGS
3つの要点
✔️ 質問生成・質問回答を組み合わせた文章要約の評価基準
✔️ 表面的な類似性でなくより重要な情報をもとに判断
✔️ 既存手法と比べ人間の判断と高い相関を発揮
Asking and Answering Questions to Evaluate the Factual Consistency of Summaries
written by Alex Wang, Kyunghyun Cho, Mike Lewis
(Submitted on 8 Apr 2020)
Comments: Published by ACL 2020
Subjects: Computation and Language (cs.CL)
自然言語処理においてモデルの性能を測定する主な方法は、何らかの自動評価基準を用いることです。例えば機械翻訳ではBLUE、文章要約ではROUGEなどが主に用いられます。
しかしこれらの主要な評価基準は、文の表面的な類似性を測ることしかできず、意味的な正確さなどの重要な情報を考慮することができません。この問題点については以前もBERTScoreの記事でも取り上げられています。
今回紹介するのは、文章要約における新たな自動評価基準であるQAGS(Question Answering and Generation for Summarization)です。既存のn-gramを用いたマッチングではなく、質問生成と質問回答を組み合わせることにより、人間の評価と非常に高い相関を達成しました。
続きを読むには
(5821文字画像6枚)AI-SCHOLARに
登録いただく必要があります。
この記事に関するカテゴリー