従来のBLEUscoreでは正しく評価できない! 自然言語に最適な人間に近い評価基準BERTScore登場!

従来のBLEUscoreでは正しく評価できない! 自然言語に最適な人間に近い評価基準BERTScore登場!

3つの要点
✔️ 文章生成における新たな評価基準BERTScore
✔️ 
BERTの埋め込み(分散表現)を利用することで文章の類似性を評価

✔️ 既存手法に比べ人間の判断と高い相関を示す評価基準

BERTScore:Evaluating Text Generation with BERT
written by Tianyi Zhang, Varsha Kishore, Felix Wu, Kilian Q. Weinberger, Yoav Artzi
(Submitted on 21 Apr 2019 (v1), last revised 24 Feb 2020 (this version, v3))

Comments: Published by ICLR2020
Subjects: Computation and Language (cs.CL)

はじめに

機械翻訳や文章要約のような文章生成のタスクでは、候補文と参照文とがどれだけ似ているかを自動的に求め、それを用いてモデルの性能を評価します。

しかし一般に用いられる自動評価基準は、表面的な類似性に依存しています。

例えば、文章生成などのタスクで非常によく用いられているBLEUでは、候補文と参照文とのn-gram(連続するn個の単語)がどれだけ一致しているかに基づいて評価を下します。このような評価は、人間の判断と必ずしも一致すると限りません

例えば、参照文が"I love you"であったとします。このとき、"I like you"と"I hate you"のうち、どちらが参照文と近いでしょうか?

人間ならば"I like you"と即答できますが、BLEUを始めとした自動評価基準は、この二つの文に対して同じ評価を下してしまいます

他にも、"A because B"と"B because A"のように、文章の意味が大きく異なっている場合でも、n-gramの一致数からではそれを判別することはやはりできません。

このように既存の評価基準では、文の意味がどれだけ近いかを正確に判別することはできず、人間の判断と異なる評価を下してしまう可能性があります。

この記事で紹介するBERTScoreでは、自然言語処理において有名なBERTの埋め込み(分散表現)を利用することで、より人間の判断と近い評価基準を実現しています。

この記事をシェアする