LLMをいつ信じるべきか

natural language processing 2023年08月24日

3つの要点
✔️ LLMsがパラメータに記憶する知識を質問応答形式で分析
✔️ 質問に対する正解率は，その質問のトピックの人気度に正比例する
✔️ 人気度に応じて外部知識を応用することで，高速かつ高いパフォーマンスを達成

When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories
written by Alex Mallen, Akari Asai, Victor Zhong, Rajarshi Das, Daniel Khashabi, Hannaneh Hajishirzi
(Submitted on 20 Dec 2022)
Comments:ACL 2023; Code and data available at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

GPT-3をはじめとした大規模言語モデル(LLMs)は各所で驚異的な性能が注目されています．巨大なパラメータと訓練データにより学習されたLLMsは，しばしばパラメータ内部に事実や常識などの知識を保持しており，我々の質問に対してある程度のレベルで解答できる能力を持っていると言われています．この知識を，パラメータに埋め込まれていることから，parametric knowledgeといいます．

しかしながら，その一方で幻覚(Hallucinations)，最近ではconfabulationsとも呼ばれる，いわゆるLLMsの「嘘」が問題視されています．彼らの持つ知識は正しいときもあれば，間違っていることもあります．そういった場合には，我々の持つ知識やWikipedia等のWeb上にある外部情報と組み合わせながら補完することで，与えられた質問に対する推論を行う必要があります．このようなパラメータに埋め込まれていない外部知識をnon-parametric knowledgeといいます．

この論文では，必要に応じて外部知識を応用しながら推論を行うretrieval-augemented LLMsの実現を目標に据えながら，いつどういった場合にLLMsの知識を信じ，信じるべきでないかの判別に対する分析を行い，それに基づく外部知識の取得を試みています．

具体的には，以下の3つのresearch questionに取り組んでいます．

LLMsはどの程度事実的知識を持っていて，何がその記憶に影響しているか？
Non-patametric knowledgeの取得によって，どれだけparametric knowledgeの補完が可能か？
適宜non-parametric knowledgeとparametric knowledgeを組み合わせるシステムは実現可能か？

RQ1：LLMsのparametric knowledgeに対する分析

著者らは，LLMsのparametric knowledgeの分析のために，新しくデータセットを作成しています．PopQAは，Wikipediaより取得した(Subject, Relation, Object)のトリプレットをもとに作成された，ごくシンプルな質問とその正解が与えられたものです．このセクションでは，PopQAを使用してLLMsの知識の分析を行います．

実験に際し，PopQAの各トリプレットに対してSubjectのWikipediaページにおける一ヶ月あたりの閲覧数をpopularity(人気度)として定義しています．この人気度は，そのトピックがWeb上でどの程度頻繁に議論されているかの指標として導入されています．加えて，EntityQuestionsというデータセットも以後の実験で使用します．EntityQuestionsは，PopQAと違い，人気度をページあたりのハイパーリンクの数で定義しています．PopQAとEntityQuestionsは下図のFigure 3のように，どちらも人気度に関してlong tailな分布を持ったデータセットです．

Relationの与える影響

また，relationごとに結果の性質が違っているのがわかると思います．著者は，relationによっては事実を記憶するすることなく，簡単に「推測」できてしまうことを指摘しています．結果を改めて見てみると，countryやsportは正答率が他と比較して高い一方で，人気度との相関は弱いことが観察されます．これは，モデルが入力の表層的な情報から，質問のsubject等に関わらず，解答しているということを示唆していると著者らは主張しています．また，こういった正答率と相関の強さにギャップのあるrelationにおいては，モデルは同じ解答ばかりを出力していることも結果の分析により明らかになっています．

Scalingとtail knowledge

上の図は，パラメータ数と正答率，そして人気度の関係を示したグラフです．人気度の高いエンティティ(暖色)の正解率はパラメータ数を大きくしていくと上がっていく一方で，人気度の低いもの(寒色)においてはパラメータ数の大きさに関わらず正答率は全体を通して低いことが分かります．これらの結果から，パラメータ数を大きくしていくとパフォーマンスも比例して上がる，いわゆるスケーリング則(scaling law)は人気度の低いエンティティに対しては必ずしも適用されないことがわかります．

RQ2：Non-parametric knowledgeによるparametric knowledgeの補完

続いて，Non-parametric knowledgeのretrievalによってモデルを拡張する手法(Retrieval-augmented LLMs)の効果を実験しています．

Retrievalの効果

実験では，BM25や，Contrieverと呼ばれる事前学習を使用した，Wikipediaからのretrievalを使った手法のほか，GenReadというLLMからプロンプティングによって知識を取得する手法を対照しています．なお，この実験では質問全てに対してnon-parametric knowledgeが与えられます．

結果は以上のFigure 7の通りです．Retrievalを行わない，すなわちnon-parametric knowledgeを使用しないモデル(Vanilla)に対し，retrieval-augmented LLMsがより良い結果を示していることが分かります．

外部知識と人気度

より詳細な結果の分析では，以下のような興味深い傾向が観察されています．

上図によると，retrieval-augmentedモデル(BM25，Contriever)の性能は，相対的に人気度の低い質問においてVanillaを上回っている一方で，人気度の高い質問においてはVanillaと同等もしくは下回るという結果が見られました．したがって，すべての入力に対してretrievalの効果があるわけではないようです．また，GenReadはLLMsのparametric knowledgeを使っているにも関わらずVanillaの性能を概ね上回っていることが分かります．これは，プロンプティングが効果的にパラメータ内部の知識を引き出せることを示しているひとつの事例とも言えそうです．

Non-parametric knowledgeは必ずしも効果的でない

Retrieval-augmentedモデルが人気度の高い入力において精度が芳しくない現象について，詳細な分析がされています．Retrievalをするモデル正答と誤答において，retrievalしないモデル(GPT-3)での正誤で区別した上で，recall@1(正解がtop1個のretrievalされてきたドキュメント(外部知識)に含まれているか否か)を計算しています．

その結果が上のTable 1です．カッコ内に示された値は各カテゴリーのPopQA全体に占める割合です．全質問の10％を占めるretrievalなしモデルで正答できていて，retrievalありモデルで誤答している質問(右上)において，1@recallが著しく低いことがわかります．したがって，モデルが誤ってretrievalされてきた外部知識に惑わされてしまった結果，最終的な性能が下がってしまっていることが示唆されています．

RQ3：Adaptive Retrieval

これまでの実験結果を踏まえ，parametric knowledgeとnon-parametric knowledgeを適宜使い分けながら質問に応答するモデルを考案しています．

Adaptive Retrievalは，入力された質問の人気度が閾値以下であった場合に外部知識を取得して解答するモデルです．実験では，閾値はrelationごとに設定されています．また，retrievalにはBM25を使用しています．

上図が実験結果です．Adaptive Retrieval(緑)はretrievalなしのモデル(青)とparametric knowledgeを使わないモデル(橙)を上回る結果となりました．だた，パラメータ数の大きいモデル(図右方)に関しては，Adaptive Retrievalと他のモデルの性能差が大きくないことがわかります．この現象について著者らは分析を行った結果，モデルの大きさによって外部知識にretrievalを行った割合に違いがあることを示しています．

上図がその分析を示したグラフです．縦軸がモデルがnon-parametric knowledgeを使用した割合になっていますが，モデルのパラメータ数が大きくなるに連れて外部知識へのretrievalが少なくなっていることが分かります．要するに，小さいモデルはほとんど外部知識に依存している一方で，大きいモデルは多くをparametric knowledgeによって解答しているということが示されています．

したがって，モデルが大きくなるに連れてAdaptive Retrievalのアドバンテージが小さくなるのは，単純にretrievalの機会が減り，retrievalなしのモデルとの構造的な差異が小さくなっていることに起因していると結論づけています．

この他にも，適宜人気度に応じてretrievalするか否かを柔軟に対応するため，解答を出力するまでの計算速度においてAdaptive Retrievalを優位性があることを主張しています．

まとめ

この論文では，LLMsの知識が信じられるときの信じられない時の判別を人気度によって行い，retrieval-augmented LLMsにおいてparametric knowledgeを使いつつも，必要に応じて外部知識を取得してくるシステムを実現しています．

LLMsは非常に自然な出力が可能であるため，その扱いには慎重になる必要があります．LLMsの出力の信頼性を自動的に判別し，使える情報は内部知識に頼りつつ，LLMsのカバーできない範囲に関しては外部情報を使うことを可能にしたこの研究は，強力なLLMsによる推論や質問応答に向けた非常に興味深い論文であると言えます．