大規模言語モデルはテキスト評価のタスクにおいて、人間の代わりになり得るのか？

Large language models 2023年08月02日

3つの要点
✔️ 大規模言語モデルによるテキスト品質の評価の有用性を検証
✔️ 大規模言語モデルは人間と同等の評価も可能であり、再現性が高く、評価も速い一方で、事実誤解や感情欠如などの問題がある。
✔️ 大規模言語モデルは人間による評価を完全に置き換えるものではなく、併用することが最も効果的と考えられる。

Can Large Language Models Be an Alternative to Human Evaluations?
written by Cheng-Han Chiang, Hung-yi Lee
(Submitted on 3 May 2023)
Subjects: Computation and Language (cs.CL); Human-Computer Interaction (cs.HC)
Comments: ACL 2023 main conference paper

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

自然言語処理のモデルやアルゴリズムの性能を評価する重要な方法は「人間による評価」です。自然言語という特性上、自動評価指標では評価しにくい側面があります。例えば、詩や物語などのクリエイティブな文章、あるいは皮肉や比喩を含む文章は、その意味や価値をアルゴリズムで評価することは難しいのが現状です。そのような場合は、自然言語処理モデルの出力の品質を評価するために人間による評価が必要となります。この手法は、自然言語処理の領域では一般に使用されています。

しかしながら、人間の評価にも問題があります。例えば、個々の評価者の主観性や解釈の違い、または評価基準の解釈の違いなどの多くの要因によって、同じテキストに対して人によって異なる評価をする可能性があります。再現性が保証できない問題があります。

そこで、今回紹介する論文では、この再現性の問題に対処するために、新たな評価手法として「大規模言語モデル」を利用することが提案しています。大規模言語モデルは、人の言語をモデル化するように学習されたモデルです。ウェブ上でアクセスできる大量のテキストデータを使って学習され、その結果として、人の言語の使用法を学習しています。つまり、人の特徴を捉えた大規模言語で評価することは、人間で評価で評価することと高い親和性があり、人よりも高い再現性や安定性を実現できる可能性があります。

今回紹介する論文では、「大規模言語モデルによる評価」が「人間による評価」を代替できるかをいくつかのタスクで検証しています。

タスク1：オープンエンドのストーリー生成

大規模言語モデルによる評価の有用性を確認するため、「オープンエンドのストーリー生成」というタスクを用いて検証しています。オープンエンドのストーリー生成とは、与えられたプロンプトに基づいて、短いストーリーを生成するタスクです。このタスクでは、人間と生成モデル（GPT-2）によって生成されたストーリーの品質を、大規模言語モデルと人間によって評価し、大規模言語モデルが、人間が書いたストーリーを生成モデルが生成したものよりも高く評価できるかどうかを検証しています。

このタスクは、Amazon Mechanical Turkのワーカーが、GPT-2が生成したストーリーと人間が書いたストーリーを区別できなかった一方で、英語教師は生成モデル（GPT-2）が生成したストーリーよりも人間が書いたストーリーの方が優れていると評価した先行研究を参考にしています。

なお、このタスクでは「WritingPrompts」データセット（Fan et al., 2018）を使用しています。「WritingPrompts」は、人気のあるオンラインコミュニティサイトRedditのサブレディット（特定のトピックに特化した掲示板）の一つであり、ユーザーが短いプロンプトを投稿すると、他のユーザーがそれに基づいて短いストーリーやエッセイを書くという形式でやり取りが行われています。「WritingPrompts」データセットは、このプロンプトと、それによって生成されたストーリーの組み合わせをデータセットとして整備したものです。

タスクの評価方法は下図のように行なっています。まず、質問表（評価の指示、生成されたストーリーの断片、評価に関する質問）を用意され、4つの異なる属性（文法的正確性、一貫性、好意度、および関連性）に基づいて、それぞれリッカート尺度（5段階）で評価されています。人間による評価では、そのまま用意された質問表に回答し、大規模言語モデルによる評価では、質問表をプロンプトとして入力し、大規模言語モデルによる出力を得ています。

なお、大規模言語モデルには、T0、text-curie-001、text-davinci-003、ChatGPTという4つのモデルが使われます。text-curie-001とtext-davinci-003は、いずれもInstructGPTモデルであり、text-davinci-003がより強力なモデルです。また、人間による評価は、過去の研究から信頼性が低いとされているため、Amazon Mechanical Turkは使用せず、フリーランサープラットフォーム「UpWork」を使って3人の英語教師に依頼して行われています。これら大規模言語モデルと英語教師は、人間が書いた200個の物語と、GPT-2が生成した200個の物語を評価しています。

オープンエンドのストーリー生成の検証結果

検証結果は下表のようになっています。人間による評価（英語教師による評価）は、人間が書いたストーリーを好むことが示されています。英語教師は、4つすべての属性（Grammaticality、Cohesiveness、Likability、Relevance）でGPT-2が生成したストーリーよりも人間が書いたストーリーを高く評価しています。これは英語教師（専門家）が生成モデルが書いたストーリーと人間が書いたストーリーの品質の差を区別することができることを示しています。

また、T0とtext-curie-001は人間が書いたストーリーに対して明確な優先順位を示していません。これらの大規模言語モデルは人間が書いたストーリーと生成モデルが書いたストーリーと品質の差を有意に区別できていないことを示しています。これは大規模言語モデルがオープンエンドのストーリー生成の評価において、人間の専門家と同等の能力を持っていないことを示しています。一方で、text-davinci-003は英語教師と同様に、人間が書いたストーリーに対して明確な優先順位を示しています。この大規模言語モデルは、すべての属性で人間が書いたストーリーを生成モデルが書いたストーリーよりも高く評価し、統計的に有意であることが示されています。ChatGPTもまた、人間が書いたストーリーを優先して高く評価し、統計的にも有意であることが示されています。さらに、ChatGPTは評価の理由も詳細に説明することもできます。なお、表中のIAAは、アノテーション一致度 (inter-annotator agreement) です。

タスク2：敵対的攻撃

このタスクでは、AIが文章を分類する能力についてテストを行うタスクを検証しています。具体的には、文章をAIが正確に分類できる（例えば、ポジティブな意味の文章なのか、ネガティブな意味の文章なのかを正しく認識できる）状態から、何らかの敵対的攻撃（同義語を使って文章をわずかに変えるなど）を行います。そして、その攻撃がAIの文章分類能力にどのように影響するかを評価します。この評価は、大規模言語モデル（この場合、ChatGPT）と人間がそれぞれ行い、その結果を比較しています。文章が自然で流暢（Fluent）か、また、文章の元の意味が保持されているかどうか（Mean.）の観点から評価を行っています。また、敵対的攻撃の手法は、Textfooler, PWWS, BAEを使用しています。これらを使って、学習済みのAIモデル（この場合、ニュース記事のタイトルを分類するために使われるBERT-base-uncasedモデル）を攻撃しています。

敵対的攻撃の検証結果

検証結果は下表のとおりとなっています。Benignが敵対的攻撃を行なっていないもの、Textfooler、PWWS、BAEが敵対的攻撃を行なっているものを表しています。英語教師（Human evaluate）は、流暢さ（Fluent）と意味の保存性（Mean.）の観点から、敵対的攻撃によって生成された文章を元の文章よりも低く評価しています。これは最近の研究でも報告されている敵対的攻撃による文章の品質の低さと一致しています。

次に、大規模言語モデル（LLM evaluate）の評価結果では、まず大規模言語モデルがタスクを理解しているか確認するための検証を行っています。これは、全く同じ文章の意味の保存性（Mean.）を評価させるもので、理想的には大規模言語モデルは常に5点（完全に同意）をつけることになります。この検証結果は、5.00となっており、ChatGPTがタスクを理解していることを示しています。

その上で、敵対的攻撃による文章を大規模言語モデルで評価した結果を見てみると、ChatGPTは英語教師よりも敵対的攻撃による文章に対して高い評価を与える傾向があるものの、ChatGPTも敵対的攻撃による文章を元の文章より低く評価しており、全体として、大規模言語モデルは人間と同様に、敵対的攻撃による文章と元の文章の品質を評価することができています。

まとめ

この論文では、テキストの品質を評価するために、人間による評価に代わるものとして、大規模言語モデルの使用を提案し、「オープンエンドのストーリー生成」と「敵対的攻撃」の2つタスクで、その有用性を検証しています。そして、検証の結果、大規模言語モデルによる評価の利点として、以下の4つを挙げています。

再現性：人間による評価では、評価者によってばらつきが生じるが、大規模言語モデルによる評価では、モデル、乱数の種、ハイパーパラメータを指定することで人間よりも再現性を高めることができる。
独立性：人間による評価では、前に見たサンプルに影響を受けて、次のサンプルの評価が変動する可能性があるが、大規模言語モデルによる評価は、それぞれの評価が独立しているため、前のサンプルに影響を受けることがない。
コスト効率とスピード：大規模言語モデルによる評価は、人間による評価よりもコストがかからず、評価も速い。
不快なコンテンツへの曝露の軽減：不適切なコンテンツを人間が評価することによる不快感を避けることができます。

一方で、大規模言語モデルによる評価には限界や倫理的な問題もあります。大規模言語モデルは一般的に事実を誤解する可能性があり、また学習によってバイアスが生じることがあります。さらに、視覚的な手がかりを解釈する能力がないため、人間と全く同じように課題を解釈することはできません。感情を持っていない可能性もあり、そのため感情に関連するタスクの評価では、有用性が低下することが考えられます。人間の評価と大規模言語モデルによる評価はそれぞれ利点と欠点があり、これらは併用することで最も効果的に利用できると考えられます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。