LLMが文化的常識を理解しているのかを検証した論文が登場！

Cultural Commonsense 2024年09月27日

3つの要点
✔️ 文化的常識に対するLLMのパフォーマンスの変化と限界についての大規模な調査を実施
✔️ 中国・インド・イラン・ケニア・アメリカの5つの国の文化に対するLLMのパフォーマンスを比較
✔️ LLMにその文化特有の知識を問うテストにおいて、国ごとにスコアに大きなばらつきがあることが判明した

Understanding the Capabilities and Limitations of Large Language Models for Cultural Commonsense
written by Siqi Shen, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, Soujanya Poria, Rada Mihalcea
(Submitted on 7 May 2024 )
Comments: Published on arxiv.
Subjects: Computation and Language(cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年の大規模言語モデル(Large Language Models, LLM)は、様々な分野において活用されているだけでなく、多くのベンチマーク評価を通じて、人間が持っている常識(=Commonsense)を理解できることが実証されつつあります。

ここでの常識とは、世界中のほとんどの人が共有している世界についての広範で基本的な常識を指しており、日常的な出来事や現象、関係性についての一般的な知識を含んでいます。

LLMコミュニティはこれまでに世間一般的な常識に加えて、物理的な常識や社会的な常識といった、より専門的な知識ベースの構築に多大な努力を注いできました。

一方で、「ウエディングドレスは赤が一般的」といった常識は中国・インド・ベトナムでは共通の文化規範ですが、イタリアやフランスでは共有されていないといったように、常識はある集団で合意されていても、その集団以外にとっては必ずしも常識であるとは限らないという側面があります。

しかし、これまでの研究ではこうした文化的常識(=Cultural Commonsense)をLLMが理解しているかについてはほとんど検証されていないといった問題点がありました。

本稿ではこうした背景から、複数の文化的常識に関するベンチマークを使用した比較実験を行うことで、文化の違いにおけるLLMのパフォーマンスの変化と限界について検証し、LLMの文化への理解に内在するバイアスを指摘した論文について解説します。

概要

常識は多くの場合、暗黙の了解となっており文章化されていないため、事実に基づいた知識とは異なり、文化的学習を通じて時間をかけて獲得されるという性質があります。

こうした性質による分析の難しさもあり、文化的常識に関する既存研究は限られており、そうした研究も比較的少数の事実と文化の情報を含むデータセットの構築に焦点が当てられていました。

一方で本論文では、言語のテキストの文化的背景としての機能に着目しており、ある文化集団の事前学習のコーパスに含まれるテキストは、その文化集団が話す言語で書かれているという点に焦点を当てています。

これを図に表すと下のようになります。

例えば、「人は道路のどちら側を歩きますか？」という質問が日本語やスワヒリ語(ケニアの公用語)で出題された場合、ユーザーはそれらの言語を話す日本人やケニア人である可能性が高く、したがって左が答えになる可能性が高くなります。

こうした性質を踏まえ、本論文ではこれまで行われてこなかった文化的常識に対するLLMの能力と限界について検証を行いました。

実験の設定

本論文では、LLMを以下の2つの基準のもとで評価しています。

文化に特化した一般的な常識に関する知識
特定の文化的文脈における一般的な常識の知識

本論文ではこれらの評価基準のもと、中国・インド・イラン・ケニア・アメリカの5つの国の文化と、それぞれの国の公用語である中国語・ヒンディー語・ペルシャ語・スマワリ語・英語の5つの言語を用いて複数のタスクによる実験を行いました。

多言語プロンプトの作成

本実験では、言語がLLMのパフォーマンスに果たす役割と、異なる言語がどの程度LLMの文化的常識の認識能力を向上させる(もしくは低下させる)ことができるかを調査するため、多言語プロンプトの作成を行いました。

具体的には、中国語・ヒンディー語・ペルシャ語・スマワリ語・英語で書かれたプロンプトに対して、Azureの翻訳APIを使用し、ターゲット言語に翻訳しています。

加えて、翻訳結果の一部を別の翻訳ツールで再度翻訳することで、翻訳の品質の検証も行なっています。

LLMの選定

本論文では、文化的常識に関するタスクにおけるLLMの能力を包括的に検証するために、以下の様々なスケールのLLMを用いて実験を行いました。

オープンソースモデルには、幅広いタスクで用いられるLLAMA2、ShareGPTによってLLAMA2をファインチューニングしたVicuna、オープンな商用利用とクリーンなコーパスであるRefinedWebを特徴とするFalconを使用しました。

加えてクローズドソースモデルには、Azure上でホストされているOpenAIのモデルであるGPT-3.5-turboとGPT-4を使用しています。

これらのモデルに対して後述するタスクを実行することで、それぞれのモデルの比較検証を行いました。

実験結果

本実験では、質問応答(question answering)と国名予測(country prediction)の2つのタスクによる比較実験を行いました。

これらのタスクで使用されるプロンプトと正解の例は下図のようになり、それぞれLLMに文章のマスクされた部分を埋めるように指示を出します。

それぞれ見ていきましょう。

質問応答(question answering)

本タスクは、文化によって答えが異なり、かつ特定の文化的背景を持つ人々にとっては常識であると考えられる質問を扱い、関心のある各文化について、その国の背景を示す常識的な主張と、そこから選べる選択肢をLLMに提示し、マスクされた部分を埋めるように指示をします。

質問と回答の選択肢は多言語に翻訳され、各モデルは入力と同じ言語で回答するように指示されます。

実験結果を下の表に示します。

注目すべきは、イラン(Iran)とケニア(Kenya)に関する質問において全てのモデルの性能が低下し、特にイランでは平均で20%もの精度低下を起こしている点です。

この結果から、LLMは事前学習コーパスにあまり含まれていない国の文化的常識には対応できないということが推察できます。

国名予測(country prediction)

さらなる洞察を得るために、本論文では次に国名予測(country prediction)による比較検証を行なっています。

本タスクは、「文化特有の常識を含む文章が与えられた時、どの国について述べられているかをLLMが識別できるか」を測定するテストであり、文章の国名をマスキングしてLLMに回答させます。

実験結果を下の表に示します。

質問応答タスクと同様に、異なる文化間のパフォーマンスを比較するとモデルは一貫してイランまたはケニアで最も悪いパフォーマンスを示しました。

加えてインド・イラン・ケニアに関して、オープンソースモデルを用いてその国の言語でクエリを実行した場合、英語と比較してパフォーマンスが低下するという現象が見られました(クローズドソースモデルでは見られず)。

この現象はオープンソースモデルにおいて、LLMへの入力に使用される言語がパフォーマンスに影響を与える可能性があり、LLMの文化への理解に内在するバイアスの存在を示唆していると言えるでしょう。

まとめ

いかがだったでしょうか。今回は、複数の文化的常識に関するベンチマークを使用した比較実験を行うことで、文化の違いにおけるLLMの性能の変化と限界について検証し、LLMの文化への理解に内在するバイアスを指摘した論文について解説しました。

本論文で行われた実験において様々な示唆が得られた一方で、本論文で使用したデータセットは英語のみである点や、今回使用したLLMモデルは最新のものではない点といった課題もあります。

これらの課題に焦点を当てた研究が行われることが、LLMの文化的理解に内在するバイアスを解明することにつながるため、今後の動向が非常に楽しみです。

今回紹介した多言語プロンプトや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。

この記事に関するカテゴリー

田中侑李