「LLMの安全性を評価するデータセット」の初の体系的なレビュー
3つの要点
✔️ 大規模言語モデルの安全性を評価し、改善するための公開データセットに関する初の包括的なレビュー
✔️ 2018年から2024年までに102個のデータセットが開発され、特に2023年に急増し、多様なデータセットの急速に開発される
✔️ データセットの言語偏りや評価方法の独自性が課題となっており、より標準化された評価が求められる
SafetyPrompts: a Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety
written by Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy
(Submitted on 8 Apr 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
大規模言語モデルのサービスがリリースされて以降、その高い有用性から多くの法人や個人に利用されるようになっています。しかし、一方で、大規模言語モデルの安全性を確保することは、モデル開発者や規制当局にとって重要な課題となっています。近年、研究者や実務家は、大規模言語モデルの安全性を評価し、改善するための新しいデータセットを急務と考えています。そして、多くの研究が報告されています。しかし、安全性は多面的で、個々の文脈に依存するため、明確な定義がありません。そのため、この複雑さゆえに、安全性を評価するデータセットは、多岐にわたり急速に開発されています。
例えば、2024年の1~2月だけでも、様々なリスクを評価するためのデータセットを発表されています。社会経済的バイアスに関するデータセット(Gupta et al., 2024)、有害なコンテンツ生成に関するデータセット(Bianchi et al., 2024)、権力志向に関する長期的なリスクを評価するデータセット(Mazeika et al., 2024)などが含まれます。このようにデータセットの種類は多岐にわたるため、研究者や実務家が個々のユースケースに最も適したデータセットを見つけ出すことが、非常に難しくなっています。
この論文では、大規模言語モデルの安全性を評価し、改善するための公開データセットに関する初の包括的なレビューを行っています。2018年6月から2024年2月までに発表された102個のデータセットを、明確な選定基準に基づいて特定、収集しています。そして、これらのデータセットを目的、作成方法、フォーマットとサイズ、アクセスとライセンス、など、いくつかの軸に沿って検討しています。
また、大規模言語モデルの安全性に関する最新の動向を分析した結果、データセットの作成が急速に進んでおり、主に学術機関や非営利団体によって推進されていることがわかりました。また、専門的な安全性評価や合成データの使用が増加しており、英語がデータセットの主流言語であることも確認されています。
さらに、公開されているデータセットが実際にどのように使用されているかを、モデルリリースの公表や人気な大規模言語モデルのベンチマークを通じてレビューしています。その結果、現在の評価方法は独自性が強く、利用可能なデータセットのごく一部しか活用されていないことが判明しました。
レビュー方法
この論文では、大規模言語モデルの安全性評価と改善に焦点を当てたオープンデータセットに限定してレビューを行っています。扱うのはテキストのデータセットのみであり、画像や音声、マルチモーダルモデルを対象としたデータセットは含まれていません。
データ形式については特に制限を設けていませんが、大規模言語モデルとのやり取りがテキストチャット形式で行われることが多いため、オープンエンドの質問や指示が含まれるデータセットや、多肢選択質問やオートコンプリートスタイルのテキストスニペットなども含まれています。言語に制限は設けられていません。また、データのアクセスについては、GitHubやHugging Faceで公開されているデータセットのみを対象にしています。データのライセンス形態についても制限は設けていません。
最後に、すべてのデータセットが大規模言語モデルの安全性に関連していることを条件としています。安全性の定義は広く設定しており、表象的、政治的、社会人口統計的バイアス、有害な指示や助言、危険な行動、社会的・道徳的・倫理的価値、対立的な大規模言語モデルの使用に関連するデータセットを含んでいます。大規模言語モデルの能力を対象とする一般的なデータセットや生成された誤情報、真実性の測定に関するデータセットは含めていません。なお、このレビューの締め切りは2024年3月1日としています。これ以降に公開されたデータセットは含まれていません。
また、この論文では、データセットの探索にあたって反復的なコミュニティ主導のアプローチを採用しています。スノーボールサンプリングを組み合わせてデータセットの候補を特定しています。2024年1月に最初のデータセットリストを含むSafetyPrompts.comの初版を公開し、TwitterやRedditで宣伝してフィードバックや追加の提案を募集しています。これにより77のデータセットが集まり、その後スノーボールサンプリングでさらに35のデータセットを追加しています。最終的に2018年6月から2024年2月までに公開された102のオープンデータセットをレビューの対象としています。
この論文で、この方法を採用した理由は2つとしています。1つ目は大規模言語モデルの安全性は急速に進展する分野であり、広範な利害関係者からのフィードバックが重要だからとしています。SafetyPrompts.comでレビューの中間結果を共有することで、多くの意見を取り入れ、より包括的なレビューを実現しています。2つ目は、従来のキーワード検索では捕捉できない関連データセットを見逃さないためとしています。例えば、「言語モデル」、「安全性」、「データセット」といったキーワードでは、Google Scholarなどで多くの結果が得られますが、重要なデータセットを見逃す可能性があります。
また、レビューに含まれる102のデータセットそれぞれについて、23の構造化情報を記録しています。これにより、各データセットの作成方法、見た目、使用可能性、アクセス方法、公開場所など、データセットの開発パイプライン全体を網羅しています。下表は、このレビューのスプレッドシートの構造と内容を説明するコードブックです。このスプレッドシートと分析を再現するためのコードはgithub.com/paulrottger/safetyprompts-paperに公開されています。
レビュー結果
大規模言語モデルの安全性に関する研究は、言語モデルのリスクやバイアスに関する長い歴史に基づいています。最初のデータセットは2018年に公開され、性別バイアスの評価を目的としていました。これらは共参照解決システムのためのものでしたが、現在の大規模言語モデルにも適用できます。これらのデータセットは、単語埋め込みにおけるバイアスに関する過去の研究に基づいており、言語モデルの負の社会的影響に対する懸念が新しいものではないことを示しています。
同様に、Dinan et al.(2019)やRashkin et al.(2019)などは、現在の生成的な大規模言語モデルのパラダイムよりも前に、対話エージェントの安全性を評価・改善するためのデータセットを導入していました。しかし、当時は安全性に対する関心が比較的低く、この論文でレビューしている102個のデータセットのうち2020年以前に公開されたものはわずか9つ(8.9%)でした。
大規模言語モデルの安全性に関する研究は2021年と2022年にかけて中程度の成長期を迎えています。これらの2年間で、それぞれ15と16のオープンデータセットが公開されています。これは、特に研究者の間でGPT-3のリリース(Brown et al., 2020)に続く生成的言語モデルへの関心の高まりと一致しています。
最後に、この論文では、大規模言語モデルの安全性に関する研究が現在前例のない成長を遂げていることを確認しています。レビューに含まれる102のデータセットのうち47(46.1%)が2023年に公開されています。これは、ChatGPTのリリース(2022年11月)に続く大規模言語モデルへの一般の関心と大規模言語モデルの安全性への懸念の高まりと一致しています。2024年の最初の2か月だけで15のデータセットが公開されており、2024年にはこれまで以上に多くのオープンデータセットが公開されることが予想されます。
また、この論文では、データセットの目的を5つの主要カテゴリーに分類しています。まず、広範な安全性(n=33)は、大規模言語モデルの安全性のいくつかの側面を網羅するデータセットを指します。これには、SafetyKit(Dinan et al., 2022)やSimpleSafetyTests(Vidgen et al., 2023)のような構造化評価データセット、BAD(Xu et al., 2021)やAnthropicRedTeam(Ganguli et al., 2022)のような広範なレッドチーミングデータセットが含まれています。
次に、狭義の安全性(n=18)は、大規模言語モデルの安全性の特定の側面にのみ焦点を当てたデータセットを指します。例えば、SafeText(Levy et al., 2022)は、一般的な物理的安全性に焦点を当て、SycophancyEval(Sharma et al., 2024)は追従行動に焦点を当てています。
価値の整合性(n=17)は、大規模言語モデルの倫理的、道徳的、または社会的行動に関するデータセットを指します。これには、Scruples(Lourie et al., 2021)やETHICS(Hendrycks et al., 2020a)のような倫理規範の理解を評価するデータセット、GlobalOpinionQA(Durmus et al., 2023)のような意見調査が含まれています。
バイアス(n=26)は、大規模言語モデルの社会人口統計的バイアスを評価するデータセットを指します。例えば、BOLD(Dhamala et al., 2021)はテキストの補完におけるバイアスを評価し、DiscrimEval(Tamkin et al., 2023)は具体的なLLMの意思決定におけるバイアスを評価しています。
その他(n=8)には、大規模言語モデルのチャットモデレーションシステムの開発のためのデータセット(例:FairPrism(Fleisig et al., 2023)やToxicChat(Lin et al., 2023))、やパブリックのプロンプトハッキング競技会からの専門的なプロンプトのコレクション(例:Gandalf(LakeraAI, 2023a)、Mosscap(LakeraAI, 2023b)、HackAPrompt(Schulhoff et al., 2023))が含まれています。
下図(再掲)では、初期の安全性データセットが主にバイアスの評価に関心を持っていたことを示しています。2018年から2021年に公開された24のデータセットのうち13(54.2%)は、言語モデルにおける社会人口統計的バイアスを特定し分析するために作成されました。これらのデータセットの12は、性別バイアスを評価しており、他のバイアスカテゴリ(例:人種や性的指向)とともに評価するものも含まれています。
広範な安全性は、2022年に産業界の貢献により主要なテーマとなっています。例えば、Anthropicは広範なレッドチーミングデータセットを2つリリースし(Ganguli et al., 2022; Bai et al., 2022a)、Metaは肯定的な差異規模言語モデルの対話に関するデータセット(Ung et al., 2022)や一般的な安全性評価に関するデータセット(Dinan et al., 2022)を公開しました。最近では、、DecodingTrust(Wang et al., 2024)やHarmBench(Mazeika et al., 2024)などのベンチマークに見られるように、広範な安全性がより構造化された評価にシフトしています。
この論文でのレビューの結果、より専門的な安全性評価への傾向があることが示唆されています。狭義の安全性評価は2022年まで出現しませんでしたが、現在では新しいデータセットの大部分を占めています。2024年の最初の2か月間だけで、レビューに含まれる15のデータセットのうち6つ(40.0%)は、ルールの遵守(Mu et al., 2024)やプライバシー推論能力(Mireshghallah et al., 2024)など、大規模言語モデルの安全性の特定の側面に関するものでした。
最後に、ほとんどのデータセットがモデルの評価のみを目的としていることが明らかになっています。このレビューに含まれる102のデータセットのうち80(78.4%)は、モデルのトレーニングではなくベンチマークや評価のために明示的に作成されています。対照的に、4つのデータセット(3.9%)のみが、モデル学習のために特に作成されたユーザーと大規模言語モデルの間の肯定的なインタラクションの例を含んでいます。
また、データセットの形式とサイズについてもレビューを行っています。この論文では、大規模言語モデルの安全性データセットの形式が、大規模言語モデルの一般的な開発傾向とともに変化していることを発見しています。初期のデータセット、特にバイアス評価のために作成されたものは、多くの場合、オートコンプリート形式(n=8)を使用しています。これは、モデルがマスクされた単語を埋めるか、文のスニペットを完成させるタスクを課される形式です。これらの形式は、初期の大規模言語モデル(BERTやGPT-2など)に最も適していましたが、現在の大規模言語モデルには、チャットスタイルのプロンプトと会話(n=58)やプロンプト可能な多肢選択質問(n=14)がより適しています。
レビューに含まれる102のデータセットのサイズは大きく異なりますが、データセットの目的や作成方法など、異なるデータセットの特性に対応する明確なパターンは見られません。最小のデータセットは、Bianchi et al.(2024)によるControversialInstructionsで、40の著者が作成したプロンプトが含まれており、大規模言語モデルにヘイトスピーチを生成させる指示をしています。最大のデータセットは、Schulhoff et al.(2023)によるHackAPromptで、プロンプトハッキング競技会の一環として記録された601,757の人間が書いたプロンプトが含まれています。
さらに、データセットの作成方法の観点でもレビューを行っています。レビューした102のデータセットのうち、17(16.7%)は人間が書いたフレーズやプロンプトのテンプレートを使用しており、これを組み合わせることで大規模な評価データセットを作成しています。例えば、HolisticBias(Smith et al., 2022)は26の文章テンプレート(例:「私は[属性1]で、[属性2]です。」)を使い、約600の異なる記述語を組み合わせて459,758のテストケースを作成します。このテンプレートアプローチはバイアス評価に特に人気があり、26のバイアス評価データセットのうち13がこの方法を使用しています。また、最近では大規模言語モデルの一般的な安全性評価(Wang et al., 2024)やプライバシー推論(Mireshghallah et al., 2024)にもテンプレートが使われています。
最近公開されたデータセットの中には、完全に合成されたものも増えています。初期の安全性データセットは人間が書いたプロンプトを収集していましたが、2023年には完全にモデル生成されたプロンプトを含む最初のデータセットが公開されました。2023年に公開された47のデータセットのうち12は、主にGPT-3.5のバリエーションによって生成されたプロンプトや文章、多肢選択質問で構成されています。例えば、Shaikh et al.(2023)はGPT-3.5を使って200の有害な質問を生成し、チェーン・オブ・ソート(CoT)質問応答における安全性を調査しています。
また、データ作成に静的なテンプレートを使う代わりに、複数の最近のデータセットは大規模言語モデルを使用して柔軟に増強されています。例えば、Bhatt et al.(2023)は専門家が書いた小規模なサイバー攻撃指示のセットを拡張し、Llama-70b-chat(Touvron et al., 2023a)を使って1,000のプロンプトの大規模なセットにしました。Wang et al.(2024)は同様のアプローチを採用し、大規模なDecodingTrustベンチマークを構築しています。
モデル評価のための小規模な手書きのプロンプトデータセットも存在します。レビューした102のデータセットのうち11(10.8%)は、著者自身が書いたもので、数百のプロンプトで構成され、特定のモデル行動(例:ルールの遵守(Mu et al., 2024)や誇張された安全性(Rottger et al., 2023))を評価しています。
データセットの言語についてもレビューしています。大多数の安全性のデータセットは英語のみを使用しています。レビューした102のデータセットのうち88(86.3%)は英語のみです。6つのデータセット(5.9%)は中国語にのみ焦点を当てています(例:Zhou et al., 2022; Xu et al., 2023; Zhao et al., 2023)。1つのデータセット(Nevéol et al., 2022)はフランス語のモデルにおける社会的バイアスを測定しています。他の7つのデータセット(10.8%)は英語と1つ以上の他の言語を網羅しています。Pikuliak et al.(2023)は10の言語をカバーしており、レビューした102のデータセットは合計で19の異なる言語を網羅しています。
また、データアクセスとライセンスの観点でもレビューを行っています。GitHubがデータの共有に最も人気のあるプラットフォームであり、102のデータセットのうち、8(7.8%)だけがGitHubで共有されていません。これらの8つのデータセットはHugging Faceで利用可能です。35のデータセット(34.3%)はGitHubとHugging Faceの両方で利用可能です。Hugging Faceの人気が高まっているにもかかわらず、Hugging Faceで利用可能な割合が高くなる明確な傾向は見られないとしています。
さらに、データが共有される場合、使用ライセンスは寛容な場合が多いとしています。最も一般的なライセンスはMITライセンスで、102のデータセットのうち40(39.2%)がこれを使用しています。14のデータセット(13.7%)はApache 2.0ライセンスを使用し、追加の特許保護を提供しています。27のデータセット(26.5%)はクリエイティブ・コモンズBY 4.0ライセンスを使用しており、適切なクレジットを提供し、データセットに変更が加えられた場合に、その旨を示すことを要求しています。5つのデータセット(4.9%)は、商業利用を禁止するCC BY-NCライセンスを使用しています。2つのデータセット(2.0%)だけがより制限的なカスタムライセンスを使用しています。2024年3月25日現在、19のデータセット(18.6%)はライセンスを指定していません。
また、データセットの作成と公開は、主に学術機関および非営利組織の主導で行われているとしています。レビューした102のデータセットのうち51(50.0%)は、学術機関または非営利組織のみに所属する著者によって公開されています。27のデータセット(26.5%)は産業界と学術界のチームによって公開され、24のデータセット(23.5%)は産業界のチームによって公開されています。さらに、データセットの作成が少数の研究拠点に集中していることも明らかになっています。
テンプレートの使用や合成データの利用などを通じて、多様な評価データセットが作成されていることがわかります。また、言語の多様性やデータのアクセスとライセンスについても重要な示唆を提供しています。
モデルリリース公開における安全性データセットの使用
ここでは、安全性データセットが実際にどのように使用されているかを調査した結果を紹介しています。特に、最新の大規模言語モデルがリリース前にどの安全性データセットを使用して評価されているかを、モデルリリースの公開資料に基づいて調査しています。また、人気のある大規模言語モデルのベンチマークに含まれる安全性データセットを調査し、大規模言語モデルの安全性評価における規範や一般的な利用の現状を明らかにしています。
この論文では、2024年3月12日時点でLMSYS Chatbot Arenaリーダーボードにリストされているトップ50の最高性能な大規模言語モデルを含めています。LMSYSリーダーボードは、大規模言語モデルの評価のためのクラウドソースプラットフォームであり、40万以上のペアワイズの人間の好みの投票に基づいてモデルのELOスコアを計算してランク付けします。LMSYSリーダーボードは、大規模言語モデルのコミュニティで非常に人気があり、業界および学界からの最新のモデルリリースを網羅しているため、使用されています。
トップ50のエントリーは、31のユニークなモデルリリースに対応しています。これらの31モデルのうち、11(35.5%)はAPI経由でのみアクセス可能なプロプライエタリーモデルです。これらは、OpenAI(GPT)、Google(Gemini)、Anthropic(Claude)、Perplexity(pplx)、Mistral(Next、Medium、Large)によってリリースされたモデルです。その他の20モデル(64.5%)はHugging Face経由でアクセス可能なオープンモデルです。リーダーボードでは、プロプライエタリーモデルが一般にオープンモデルを上回っており、Qwen1.5-72b-chatが10位で最も高いランクのオープンモデルです。31モデルのうち26モデル(83.9%)は産業界の研究所によってリリースされ、残りは学術機関または非営利組織によって作成されました。すべての31モデルは2023年または2024年にリリースされています。
レビューの結果、最新の大規模言語モデルの大部分がリリース前に安全性評価を受けていることがわかりましたが、その範囲と性質は様々です。31モデルのうち24モデル(77.4%)がリリース公開資料で安全性評価を報告しています。21モデル(67.7%)が少なくとも1つのデータセットの結果を報告しています。例えば、Guanaco(Dettmers et al., 2024)は単一の安全性データセット(CrowS-Pairs by Nangia et al., 2020)で評価されました。一方、Llama2(Touvron et al., 2023b)は5つの異なる安全性データセットで評価されました。31モデルのうち7モデルは安全性評価を一切報告していません。これには、Starling(Zhu et al., 2023)やWizardLM(Xu et al., 2024)など、学術界や産業界の5つのオープンモデル、プロプライエタリーのMistral MediumとNextモデルが含まれています。
また、プロプライエタリーデータがモデルリリースの安全性評価で大きな役割を果たしていることもわかりました。安全性評価結果を報告している24のモデルリリースのうち13(54.2%)は、非公開のプロプライエタリーデータを使用してモデルの安全性を評価しています。これらのリリースのうち3つ(Gemini(Anil et al., 2023)、Qwen(Bai et al., 2022b)、Mistral-7B(Jiang et al., 2023))は、プロプライエタリーデータセットの結果のみを報告しています。
さらに、モデルリリース評価で使用される安全性データセットの多様性が非常に限られていることがわかりました。31モデルリリース全体で使用されるオープンLLM安全性データセットは合計12個しかなく、これらのうち7個は一度しか使用されていません。特に、TruthfulQA(Lin et al., 2022)は、安全性評価結果を報告している24モデルリリースのうち16(66.7%)で使用されています。他のすべてのデータセットは、最大でも5つのモデルリリース公開で使用されています。
このように、安全性データセットはモデルリリースにおいて重要な役割を果たしており、安全性評価の基準となっていることがわかります。しかし、その使用には限りがあり、さらに多様なデータセットが活用されることが期待されます。
主要なベンチマークで使用される安全性データセット
次の広く使用されている5つの汎用ベンチマークを調査しています。
- スタンフォードのHELM Classic(Liang et al., 2023)
- HELM Instruct(Zhang et al., 2024)
- Hugging FaceのOpen LLM Leaderboard(Beeching et al., 2023)
- Eleuther AIのEvaluation Harness(Gao et al., 2021)、
- BIG-Bench(Srivastava et al., 2023)
また、主に大規模言語モデルの安全性に焦点を当てた2つのベンチマークであるTrustLLM(Sun et al., 2024)、LLM Safety Leaderboardも調査しています。
レビューの結果、ベンチマークごとに大規模言語モデルの安全性を評価する方法には大きな違いがあることがわかりました。7つのベンチマーク全体で合計20の安全性データセットが使用されていますが、そのうち14のデータセットは1つのベンチマークでしか使用されていません。例えば、TrustLLM(Sun et al., 2024)は8つの安全性データセットを使用しており、そのうち6つは他のベンチマークでは使用されていません。2つ以上のベンチマークで使用されている安全性データセットは、TruthfulQA(Lin et al., 2022)が5つのベンチマークで使用されているほか、RealToxicityPrompts(Gehman et al., 2020)とETHICS(Hendrycks et al., 2020a)が3つのベンチマークで使用されています。
まとめ
この論文によるレビューでは、大規模言語モデルの安全性に対する関心の高まりが、大規模言語モデルの安全性に関するデータセットの多様化を促進していることを示しています。2023年にはこれまで以上に多くのデータセットが公開されており、この傾向は今年も続くと考えられます。そして、既存のデータセットは様々な目的やフォーマットに対応しており、時間とともに大規模言語モデルのユーザーや開発者の用途に適応しています。
しかし、一方で課題も見られています。現状で最も顕著な課題の一つは英語以外の言語によるデータセットの不足です。現在の安全性に関するデータセットは、英語によるものが圧倒的に多いことがわかりました。これは長年にわたる自然言語処理の研究傾向を反映していると考えられます。このデータセットの言語の偏りは、データセットを公開しているか人の言語の偏りを反映しています。米国以外の機関が母国語でデータセットの作成を主導することで、この偏りが改善される可能性があります。
また、大規模言語モデルの安全性に関するデータセットの実際の使用方法を分析した結果、安全性評価の標準化の改善の余地があることが明らかになりました。モデルリリースの公表や人気の大規模言語モデルのベンチマークに安全性評価が含まれていることからもわかるように、モデル開発者やユーザーにとって、安全性の評価は重要な優先事項です。しかし、これまでに使用されてきた安全性評価の方法は独自性が非常に強く、ほとんどのモデルリリース公表やベンチマークが異なるデータセットを使用していることが明らかになりました。より標準化されたオープンな評価が行われれば、より有意義なモデル比較が可能となり、安全な大規模言語モデルの開発を促進する動機づけになると考えられます。
標準化のための課題は、どの評価が適切な標準を構成するかを明確にすることです。この論文において、レビューしたデータセットも異なるデータセットが異なる目的を持っており、同じ基準によって単純に比較することが難しいことがわかります。まずは、このレビューによって、現在、利用可能な大規模言語モデルのデータセットの多様性を認識することで、今後のデータセット開発に活かされることが望まれます。
この記事に関するカテゴリー