「LLMが長文を出力する際の正確さ」を自動評価する手法が誕生

Large language models 2024年07月01日

3つの要点
✔️ 長文の事実性・情報の正確性を評価できるデータセット「LongFact」を作成
✔️ LLMを使って長文の事実性を自動評価する手法「SAFE」を提案
✔️ 長文の事実性を定量化する指標「F1@K」を導入

Long-form factuality in large language models
written by Jerry Wei, Chengrun Yang, Xinying Song, Yifeng Lu, Nathan Hu, Jie Huang, Dustin Tran, Daiyi Peng, Ruibo Liu, Da Huang, Cosmo Du, Quoc V. Le
(Submitted on 3 Apr 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

LLMの長文での事実性を自動評価できるようになった

本論文の内容は、Google DeepMindの研究で、「LLMの長文での事実性(long-form factuality)・情報の正確性をベンチマークするための新しいデータセット、評価手法、指標を提案する」というもの。

本研究のポイントは、以下の通りです。

課題：LLMが出力した長文の事実性を評価するためのデータセット、評価手法、指標が存在しない
解決手法：データセット「LongFact」、自動評価する手法「SAFE」、評価指標「F1@K」を導入
ポイント①：上記の手法により、「LLMが出力した長文の事実性」を定量化できるようになった
ポイント②：大規模なモデルほど長文の事実性が高いことが明らかになった

つまり、LLMが出力する長文の情報の正確性を自動で評価し、今後のLLM開発に役立てられる研究だと言えるでしょう。

LLMの性能評価における現状

近年のLLMの性能は目覚ましいほどに向上していますが、それと同時に「ハルシネーションを引き起こす」「嘘をつく」という問題も抱えています。

特に、「長文を出力させる際の著しい精度低下」が、重要課題となっているのです。

その原因の一つとして、「LLMの長文の事実性を評価するデータセットが存在しない」という問題がありました。というのも、既存のデータセットの多くは、短い質問に答えさせるQ&Aが中心であるため、長文の回答の事実性を評価することは難しかったとのこと。

さらに、長文の事実性を定量化する手法や指標も確立されていないため、上手く評価できなかったのです。

本研究で提案された手法

先述の通り、本研究ではLLMの長文での事実性を自動評価するために、以下の3つが提案されました。

LongFact
SAFE(Search-Augmented Factuality Evaluator)
F1@K

それぞれの詳細を、順番に見ていきましょう。

データセット：LongFact

LongFactとは、この論文で提案された新しいQ&Aデータセットのことです。

主な特徴は以下の通りです。

38のトピックにわたる2,280の事実を求める質問で構成
トピックはSTEM(科学・技術・工学・数学)、社会科学、人文科学、その他の4つのカテゴリーに分類
長文の回答を必要とする質問で構成
GPT-4を使って質問を生成
生成された質問から重複を取り除き、各トピックについてランダムに30の質問を選択

下図の左側は「LongFactに含まれる質問のトピックの割合」を表し、右側は「既存のデータセットとLongFactとの比較」を表します。

既存のデータセットと比べると、長文の事実性を評価できるデータセットの中では、LongFactのトピック数が最多であることが分かります。

ちなみに、LongFactはGitHubで公開されており、誰でも利用可能です。そのため、今後のLLMの研究の基盤となることが期待されます。

評価手法：SAFE(Search-Augmented Factuality Evaluator)

SAFE (Search-Augmented Factuality Evaluator)は、この論文で提案された、LLMの長文での事実性(long-form factuality)を自動評価する手法です。

SAFEの概要を示した図は、以下の通りです。

SAFEによる評価は、以下の流れで行われます。

LLMにPromptを入力し、Responseを出力させる
LLMを使って、Responseの文章をいくつかの「要素」に分解
LLMを使って「分解された個々の要素が、入力Promptに関連があるかどうか」を判定
関連性があると判定された「個々の要素」について、LLMを使ってGoogle検索のクエリを生成
生成されたクエリでGoogle検索
Google検索の結果から「個々の要素」が正しい情報かどうか（根拠があるか）を判定

要するに、下の図のように、出力文章の要素分解→クエリ生成→Google検索を行い、検索結果から事実の裏付けとなる情報を探しているのです。

当然、「情報の正しい要素の数」が多い程、LLMの出力したResponseの信頼性が高いことを表します。

また、SAFEと人間の不一致が見られた100の事実について、著者らが正解ラベルを付与したところ、SAFEは76%で正しい評価をしていたのに対し、人間は19%しか正しくなかったということが分かりました。加えて、SAFEは人間の評価者の20分の1以下のコストで、人間を上回る性能を達成したとのこと。

つまり、SAFEは比較的低コストで、精度も高いことが分かるでしょう。

ちなみに、SAFEの実装コードについても、オープンソースとしてGitHubで公開されており、誰でも利用可能です。

評価指標：F1@K

F1@Kは、適合率(precision)と再現率(recall)の両方を考慮した指標です。具体的には以下のように定義されています。

適合率$ Prec(y) $：出力yにおける「情報の正しい要素」の割合
再現率$ R_K(y) $：出力yにおける「情報の正しい要素」の数$ S(y) $を、ユーザが好むと想定される出力文章の長さ（情報の正しい要素の数）の数$ K $で割ったものの最小値$ min(S(y)/K, 1) $

そして、$ F1@K $は適合率と再現率を、以下の式で組み合わせたものです。

$ S(y) > 0 $の場合:

$ F1@K(y) = \frac{2 * Prec(y) * R_K(y)}{ Prec(y) + R_K(y)} $

$ S(y) = 0 $の場合:

$ F1@K(y)= 0 $

つまり、F1@Kは0から1の値をとり、1に近いほど長文の事実性が高いことを示します。

Kはハイパーパラメータで、ユーザが好む出力文章の長さ(情報の正しい要素の数)を表します。ユーザーはK個までの「情報の正しい要素」については多いほど良いと考えるが、Kを超える「情報の正しい要素」については無関心であると仮定しています。

例えばK=64なら、ユーザーは64個までの「情報の正しい要素」は多いほど良いと考えるが、65個目以降については無関心となります。

Kの値は、ユーザーの好みに応じて設定される必要があるとのこと。

これにより、単に事実に基づいているかだけでなく、十分な量の情報を含んでいるかも評価できるようになっているのが特徴です。

実際に、本論文ではF1@Kを用いて、13のLLMをベンチマークし、モデルの長文における事実性能を比較しています。

本データセットや評価指標・手法を用いたLLMの性能比較

実験内容

LLMの長文での事実性において、「モデルの規模」と「長文の事実性」との関係を調べるために、13のLLMs(Gemini, GPT, Claude, PaLM-2シリーズ)を、LongFactでベンチマークしています。

具体的には、LongFactから無作為に選んだ250の質問に対して、各モデルを用いて出力を生成し、SAFEで評価しています。

そして、F1@K（K=64とK=178)の場合の性能を定量化し、比較したとのこと。

結果

実験の結果より、大規模なモデルほど長文の事実性が高いことが分かりました。

例えば、GPT-4-TurboはGPT-4より、GPT-4はGPT-3.5-Turboより事実性が高いです。また、Gemini-UltraはGemini-Proより事実性が高く、PaLM-2-L-IT-RLHFはPaLM-2-L-ITより高いのが分かります。

さらに、Kの値によらず、最も事実性の高いモデルは、GPT-4-Turbo、Gemini-Ultra、PaLM-2-L-IT-RLHFの3つだったそう。

本研究が今後のLLM開発での基盤となることに期待

本記事では、「LLMの長文での事実性・情報の正確性を正しく評価するための手法」に関する、Google DeepMindの研究をご紹介しました。

本研究では、LLMの長文での事実性を評価するためのLongFact、自動評価手法SAFE、指標F1@Kが提案されました。

これらにより、大規模言語モデルの長文での事実性の現状が明らかになり、今後の研究の基盤となることが期待されるでしょう。

本研究の限界点としては、以下の点が挙げられます。

LongFactとSAFEはLLMに依存しているため、使用するLLMの能力が直接影響する
SAFEはGoogle検索に依存しているため、一部の事実を正しく評価できない可能性がある
SAFEが「人間の専門家レベルの評価者」と同等以上の性能を持つかは検証されていない

そこで、今後の研究では、LLMの長文での事実性を向上させるための学習やファインチューニング、外部ツールの活用などに関する研究を予定しているとのこと。

また、SAFEの「言語モデルへの依存性」の改善や、LLMの内部知識に対する事実の正確性を、長文で評価する手法の開発も計画段階だと述べています。

個人的な意見

個人的な意見として、LLMの評価という重要な課題に、正面から取り組んだ重要な研究だと思いました。提案手法にはまだ改善の余地があるが、今後のLLM研究の発展に大きく寄与する可能性を感じます。

さらに本手法やデータセットが洗練されたものになれば、より長い文章をLLMに出力させる際にも、精度を担保できるようになるでしょう。例えば、ブログの完全執筆や本一冊分の生成など、これまであまり精度の高くなかったタスク領域にも、LLMを活用できそうです。

ちなみに、本研究のデータセットや評価手法については、GitHubで公開されているので、興味がある方は試してみることをおすすめします。

この記事に関するカテゴリー

Nakata

「LLMが長文を出力する際の正確さ」を自動評価する手法が誕生

LLMの長文での事実性を自動評価できるようになった

LLMの性能評価における現状

本研究で提案された手法

データセット：LongFact

評価手法：SAFE(Search-Augmented Factuality Evaluator)

評価指標：F1@K

本データセットや評価指標・手法を用いたLLMの性能比較

実験内容

結果

本研究が今後のLLM開発での基盤となることに期待

個人的な意見

【Libra】分離型ビジョンシステムを用いた大規模言語モデルの新たな多モーダル設計

【Libra】分離型ビジョンシステムを用いた大規模言語モデルの新たな多 ...

LLMの弱点を暴く「TruthEval」データセットの構築と分析

LLMの弱点を暴く「TruthEval」データセットの構築と分析

大規模言語モデルのスポーツの理解力を測る新データセット「SportQA」

大規模言語モデルのスポーツの理解力を測る新データセット「SportQA ...

人間の好みに基づく、AIアシスタントの新たな評価方法の提案

人間の好みに基づく、AIアシスタントの新たな評価方法の提案

大規模言語モデルが変える音楽教育の未来、Flute X GPTとLAUIの可能性

大規模言語モデルが変える音楽教育の未来、Flute X GPTとLAU ...

2024年パリ五輪ハンドボールの結果予測と、LLMを活用した予測根拠の説明

2024年パリ五輪ハンドボールの結果予測と、LLMを活用した予測根拠の ...