科学的自然言語推論のための多様なベンチマーク「MSciNLI」の提案

Large language models 2024年12月12日

3つの要点
✔️ 科学的な自然言語推論タスクのための多様なデータセット「MSciNLI」を提案
✔️ 事前学習言語モデルと大規模言語モデルによるベースラインを確立
✔️ ドメインシフト下での包括的なモデル性能を分析

MSciNLI: A Diverse Benchmark for Scientific Natural Language Inference
written by Mobashir Sadat, Cornelia Caragea
(Submitted on 11 Apr 2024)
Comments: Accepted to the NAACL 2024 Main Conference
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

自然言語推論（Natural Language Inference; NLI）は、2つの文の意味関係を認識するタスクです。最初の文を「前提」、次の文を「仮説」と呼ばれます。従来の自然言語推論のデータセットには、SNLI、MNLI、SICK、ANLIなどがあり、これらは仮説が前提を含意するか、矛盾するか、中立であるかの3つのクラスに分類します。これらのデータセットは、自然言語理解（Natural language understanding; NLU）のベンチマークとしてだけでなく、事実確認やフェイクニュース検出などの下流タスクにも使用されています。また、表現学習、転移学習、マルチタスク学習の進展にも寄与しています。

しかし、これらのデータセットのサンプルは主に一般的なドメインから派生したものであるため、科学的なドメインに対しては、言語特性を十分に捉えることができません。そこで、科学的自然言語推論のタスクと、最初のデータセットであるSciNLIが導入されました。SciNLIは、計算言語学に関連する科学論文から抽出された文のペアを含んでおり、科学論文に特有の推論を行うために、従来の自然言語推論の3クラスを4クラス（含意/ENTAILMENT、推論/REASONING、矛盾/CONTRASTING、中立/NEUTRAL）に拡張しています。SciNLIは研究コミュニティで大きな注目を集めていますが、単一のドメイン（a single domain; ACL）に限定されているため、一般的な科学分野の自然言語推論のベンチマークでは多様性が不足しています。

そこで、この論文では、5つの異なるドメインで発表された論文から抽出された文のペアを含む科学的な自然言語推論のデータセット「MSciNLI」を提案しています。ここでは「ハードウェア」、「ネットワーク」、「ソフトウェア＆エンジニアリング」、「セキュリティ＆プライバシー」、「NeurIPS」の5つのドメインを扱っています。科学論文に含まれている文同士のリンクするフレーズを利用して大規模な学習セットを構築し、学習中に潜在的にノイズの多い文のペアを直接使用します。テストおよび開発セットには、高品質な評価データを作成するために、手動でアノテーションした文のペアが含まれています。

MSciNLIの難易度を評価するために、BILSTMベースのモデルを使用しています。また、BERT、SCIBERT、ROBERTA、XLNETといった4つの事前学習言語モデルをファインチューニングし、LLAMA-2とMISTRALという2つの大規模言語モデルをゼロショットおよびフューショットでプロンプティングすることで、MSciNLIのベースラインを確立しています。さらに、テスト時のドメインシフト下での性能を評価し、科学的な自然言語推論モデルの汎化性能について包括的な分析を行っています。

多様な科学的自然言語推論ベンチマーク「MSciNLI」の構築

ここでは、MSciNLIのデータソース、構築方法、統計値について紹介します。MSciNLIは、ACMデジタルライブラリの4つのカテゴリ（ハードウェア」、「ネットワーク」、「ソフトウェアおよびそのエンジニアリング」、「セキュリティとプライバシー」）に掲載された論文と、NeurIPSに掲載された論文から収集されています。下表は、これら5つのドメインから抽出された文のペアのサンプルです。

また、2022年にSadatとCarageaによって提案された「Distant Supervision」に基づくデータ抽出と自動ラベリングの手順を導入しています。文と文のリンクフレーズ（例：「したがって」、「従って」、「対照的に」など）を使用して、自然言語推論の関係を持つ大規模な（潜在的にノイズの多い）学習セットを自動的にアノテーションしています。また、リンクフレーズとその自然言語推論の関係へのマッピングのリストは、下表の通りです。

この手順では、まず含意/ENTAILMENT、推論/REASONING、矛盾/CONTRASTINGのクラスの場合、2番目の文がリンクフレーズで始まるように、5つのドメインから収集された論文から隣接する文のペアを抽出します。抽出された各文のペアについて、2番目の文の冒頭にあるリンクフレーズに応じて、そのクラスが割り当てられます。例えば、2番目の文が「したがって」や「その結果」で始まる場合、推論/REASONINGのラベルが付与されます。ラベルを割り当てた後、リンクフレーズはモデルが単にリンクフレーズとラベルの表面的な相関を学習してラベルを予測するのを防ぐために、2番目の文から削除されます。

中立/NEUTRALのクラスの場合、3つの方法でペア内の両方の文を同じ論文から抽出して文のペアを構築します。1つは、リンクフレーズで始まらない2つのランダムな文をペアにする。もう1つは、リンクフレーズで始まらないランダムな文を最初の文として選び、他の3つのクラスのいずれかに属するランダムペアの2番目の文とペアにする。最後は、リンクフレーズで始まらないランダムな文を2番目の文として選び、他の3つのクラスのいずれかに属するランダムペアの最初の文とペアにする方法です。

4つのクラスすべての文のペアを抽出した後、論文単位でそれらをランダムに分割して、学習セット、テストセット、開発セットに分けています。この時、特定の論文から抽出された文のペアが単一のセットに含まれるようにしています。自動的にアノテーションしたサンプルを直接使用してモデルを学習しています。しかし、学習セットの構築中にDistant Supervisionを使用したため、リンクフレーズによって文ペア間の関係が正確に捉えられない場合には、ラベルのノイズが発生する可能性があります。そのため、現実的な評価を確保するために、テストセットおよび開発セットの文のペアを人間のアノテーターが手動で4つの科学的自然言語推論の関係性のいずれかにアノテーションしています。

3人のアノテーターが、MSciNLIのテストおよび開発セットをアノテーションしています。テストおよび開発セットからランダムに、かつ、クラス間でバランスを取った文のペアのサブセットを、アノテーターに渡し、それぞれのサンプルの2つの文の中で利用可能なコンテキストに基づいて、ラベル（文間の関係）をアノテーションするよう指示しています。また、アノテーターが文ペアの2つの文に基づいてラベルを判断できない場合、それは不明確として印をつけるように指示しています。各サンプルはアノテーターの多数決に基づいてゴールドラベルが割り当てられます。アノテーター同士で合意が得られない場合（約3%）、ゴールドラベルは割り当てられません。リンクフレーズに基づいて自動的に割り当てられたラベルとゴールドラベルが一致するサンプルは、それぞれの分割に含まれ、それ以外は除外されています。

各ドメインについて、ランダムサンプリング（置き換えなし）を継続し、テストセットに少なくとも800のクリーンなサンプル（各クラスから200ずつ）、開発セットに200のクリーンなサンプル（各クラスから50ずつ）が含まれるまで手動でアノテーションを行っています。合計で6,992のサンプルにアノテーションし、そのうち6,153はゴールドラベルと自動的に割り当てられたラベルが一致がしています。つまり、MSciNLIは、全体として88.0%が一致しています。

また、データの均等性を確保するために、各ドメインの各クラスのサンプル数をテストセットでは200、開発セットでは50にダウンサンプリングしています。その結果、テストセットには4,000のサンプル、開発セットには1,000のサンプルが含まれます。学習セットにおいても、同様の手順でデータの均等性を確保されています

次に、MSciNLIの統計値です。下表では、MSciNLIの統計値と、SciNLIとの統計値の比較を示しています。MSciNLIの総サンプル数（<前提、仮説>ペア）は、科学論文に関する唯一の自然言語推論のデータセットであるSciNLIよりも多いことがわかります。さらに、MSciNLIの各ドメインには、学習セットに多数のサンプルが含まれています。

SciNLIと同様に、Stanford PCFG Parser（3.5.2）を使用してデータセット内の文を解析しています。上表に示すように、MSciNLIの文の約94%は「S」ルートを持ち、データセットのほとんどの文が構文的に完全であることを示しています。また、表に示すように、MSciNLIの各ペアにおける前提と仮説の単語の重複率も低く、SciNLIに近いこともわかります。したがって、SciNLIと同様に、MSciNLIデータセットも表面的な語彙の手がかりが利用される脆弱性がないことがわかります。

MSciNLIの評価

MSciNLIの評価は、3つの段階で構成されています。1つは、BiLSTMモデルを用いて、難易度を評価しています。2つ目は、4つの事前学習言語モデルと2つの大規模言語モデルを用いてベースラインを構築し、人間との性能を比較しています。3つ目は、学習セットのさまざまなサブセットでファインチューニングした際の性能や、ドメインシフト下での性能を調査し、最も優れたベースラインの性能を分析しています。

1つ目のBiLSTMモデルを用いた難易度評価の結果は、下表のとおりです。MSciNLIとSciNLIにおけるこのモデルの性能の比較結果が示されています。MSciNLIは、SCINLIよりも挑戦的なデータセットであることがわかります。BiLSTMモデルのSciNLIにおけるMacro F1スコアは61.12%であるのに対し、MSciNLIではわずか54.40%です。これらの結果は、MSciNLIがモデルにとってSciNLIよりも広範な課題を提供し、科学的自然言語推論タスクをより難しくしていることがわかります。

2つ目の事前学習言語モデルと大規模言語モデルを用いたベースラインの確立です。ここでは4つの事前学習言語モデルの基本バリアントを統合されたMSciNLIの学習セットでファインチューニングしています。4つの事前学習言語モデルとして、BERT（Devlin et al., 2019）、SciBERT（Beltagy et al., 2019）、RoBERTa（Liu et al., 2019b）、XLNet（Yang et al., 2019）が使用されています。各実験は異なるランダムシードで3回実行し、ドメイン別および全体のMacro F1スコアの平均と標準偏差を計算しています。結果は下表のようになっています。

SciBERTはすべてのドメインでBERTよりも優れたパフォーマンスを示しています。SciBERTはBERTと同じ手順で学習されていますが、科学論文を使用して事前学習されているため、科学的な自然言語推論の性能向上に役立っていると考えられます。また、RoBERTaとXLNetはBERTの弱点を解消するために設計されており、どちらもすべてのドメインでBERTを大幅に上回る性能を示しています。特に、RoBERTaは一貫してXLNetを上回り、SciBERTよりも優れた性能を示しています。

次に、2つの大規模言語モデルをベースラインとして評価しています。ここでは、LLAMA-2（Touvron et al., 2023）とMISTRAL（Jiang et al., 2023）を使用しています。具体的には、13億パラメータを持つLlama-2-13b-chat-hfと7億パラメータを持つMistral-7B-Instruct-v0.1を使用しています。

この論文では、科学的自然言語推論タスクに対して、3つの選択肢問題のテンプレート（下図）を用意しています。

PROMPT-1：文のペアが与えられたときに、4つのクラス名を選択肢として大規模言語モデルにクラスを予測させる。
PROMPT-2：科学的自然言語推論タスクに関するさらなるコンテキストを大規模言語モデルに提供し、科学的自然言語推論のクラスを定義してからクラス名を選択肢としてクラスを予測させる。
PROMPT-3：クラスの定義を直接選択肢として使用する。

また、この論文では、ゼロショットとフューショットの2つの設定で大規模言語モデルの性能を評価しています。各実験のドメイン別および全体のMacro F1スコアは、下表のとおりです。なお、各プロンプトのゼロショット、フューショットにおける結果は、それぞれPROMPT - zs、PROMPT - ifsと表記されています。

結果から、LLAMA-2はPROMPT-3_fsで最も高い性能を示し、Macro F1が51.77%に達しています。これはPROMPT-1_fsでのMISTRALの最も高いものよりも6.28%高い性能となっています。

さらに、3人の専門家（関連するドメインのバックグラウンドを持つ人; E）と3人の専門家ではない人（ドメインのバックグラウンドを持たない人; NE）を対象に、MSsciNLIに対する人間の性能を評価しています。テストセットのランダムにサンプリングされた小さなサブセットを再アノテーションすることで、人間の性能を推定しています。専門家と非専門家のMacro F1の平均と標準偏差を計算しています。最も優れた事前学習言語モデルのベースラインであるRoBERTa、最も優れた大規模言語モデルのベースラインであるPROMPT-3_fsを用いたLLAMA-2と比較しています。

結果から、専門家のアノテーターは非専門家を大幅に上回ることがわかります。また、非専門家の性能は、専門家に比べて低いものの、それでもベースラインを上回っていることがわかります。また、専門家の性能はRoBERTaとLLAMA-2の両方よりも大幅に高くなっています。これは、モデルの性能を向上させるための大きな余地があることを示していると言えます。

これらの評価を通じて、MSciNLIが科学的自然言語推論タスクにおいていかに重要なデータセットであるか、また、その難易度と多様性がモデルの性能にどのように影響するかを明らかにしています。

MSciNLIの分析

このこMSciNLIの学習セットを様々な観点から分析し、その性能を調査しています。まずデータカートグラフィ（Swayamdipta et al., 2020）です。データカートグラフィで選別された異なる学習サブセットを使ってモデルをファインチューニングし、MSciNLIの学習セットを評価しています。次に、テスト時のドメインシフトにおけるモデルの挙動を調査しています。最後に、SciNLI、MSciNLI、その組み合わせでファインチューニングされたモデルの性能を比較するクロスデータセットの実験を行っています。これらの実験には、最も優れたベースラインモデルであるRoBERTaを使用しています。

データカートグラフィでは、データカートグラフィを実行し、MSciNLIの学習セット内の各サンプルを信頼度と変動性の2つの指標で特徴付けしています。この特徴付けに基づいて、以下の学習セットのサブセットを使用して3つの異なるRoBERTaモデルをファインチューニングしています。

33% - easy-to-learn - 信頼度が高いサンプル
33% - hard-to-learn - 信頼度が低いサンプル
33% - ambiguous - 変動性が高いサンプル

さらに、学びにくいサンプルがモデル学習に与える影響を分析するために、学習セット全体から以下の2つのサブセットを除外してモデルをファインチューニングしています。

100% - top 25% hard（信頼度が最も低い25%のサンプル）
100% - top 5% hard（信頼度が最も低い5%のサンプル）

これらの結果は下表に示されています。33%の曖昧なサンプル（33% - ambiguous）でファインチューニングされたモデルが、他の33%サブセットの中で最も高い性能を示しています。学習サンプルの「曖昧さ」は強力な科学的自然言語推論のモデルの学習に役立つことがわかります。

また、33%の曖昧なサンプル（33% - ambiguous）は高い性能を示しますが、学習セット全体（100%）の方が優れた結果となっています。また、学びにくいサンプルを一部（25%や5%）取り除いても、全体の性能に統計的に有意な差は生じません。つまり、学習セット内のすべてのサンプルが最適なモデルを学習するために重要です。

さらに、あるドメインでRoBERTaを学習し、別のドメイン（ドメイン外）でテストすることで、ドメインシフトが性能に与える影響を調査しています。MSciNLIの5つのドメインに加え、SciNLIのACLドメインも含めて実験を行っています。公正な比較のために、SciNLIの学習セットを他のドメインと同じサイズにダウンサンプリングし、ACL - SMALLと表記しています。ドメイン内（ID）およびドメイン外（OOD）の結果は、下表に示されています。

ドメイン内（ID）で学習されたモデルは、ドメイン外（OOD）のモデルよりも高い性能を示します。例えば、NeurIPSの学習セットでファインチューニングされたモデルは、NeurIPSでテストされたときに76.02%のMacro F1を示しますが、他のドメインで学習されたモデルがNeurIPSでテストされると性能が低下します。これは、各ドメインの文のペアが独自の言語特性を持ち、ドメイン内のデータで学習されたモデルがそれをよりよく捉えることを示しています。

最後は、クロスデータセットによる実験です。以下の4つの異なるRoBERTaモデルを学習し、それぞれのテストセットで評価しています。

SciNLI
MSciNLI
MSciNLI+（S） - MSciNLIとACL-SMALLの組み合わせ
MSciNLI+ - MSciNLIとSciNLIの組み合わせ

これらの結果は、下表のとおりです。データセットシフト下では、SciNLIおよびMSciNLIの性能が低下しています。しかし、MSciNLIでファインチューニングされたモデルは、データセット外の設定でも比較的高い性能を維持しています。SciNLIでファインチューニングされたモデルは、MSciNLIでテストされたときに性能が2.02%低下しますが、MSciNLIでファインチューニングされたモデルは、SciNLIでテストされたときに1.34%の低下にとどまっています。これは、データの多様性が高い汎化性能を持つモデルの学習に役立つことを示していると言えます。

また、MSciNLI+でファインチューニングされたモデルは、両方のデータセットと、その組み合わせに対して最も高い性能を示しています。多様なサンプルを含む大規模な学習セットでモデルをファインチューニングすることで、より良い性能が得られています。MSciNLI+（S）で学習されたモデルは、MSciNLI+で学習されたモデルよりも性能が低いものの、それでもMSciNLIよりも優れています。これは、データセットの組み合わせが、MSciNLI+（S）にも当てはまることを示していると言えます。

まとめ

この論文では、5つの科学分野から派生した多様な科学的な自然言語推論のベンチマークであるMSciNLIを紹介しています。MSciNLIは、他の唯一の関連データセットであるSciNLIよりも分類が難しいことがわかりました。MSciNLIに対して強力なベースラインを構築し、このデータセットが事前学習言語モデル（PLM）、大規模言語モデル（LLM）の両方にとって挑戦的であることを検証しています。さらに、テスト時のドメインシフト下での科学的な自然言語推論モデルの性能と、下流の自然言語処理タスクでの使用について包括的な調査を行っています。

実験結果から、MSciNLIにおいて、大規模言語モデルの性能がは低くなる（最高のMacro F1スコアは51.77%）ことがわかり、今後の改善の余地が多く残されていることが示されています。また、プロンプトの設計は性能に大きな影響を与えるため、他のプロンプト戦略のさらなる探求が性能の向上につながる可能性があります。
著者らは、将来的に、科学的な自然言語推論における大規模言語モデルの性能を向上させるためのプロンプトの設計に注力するとしています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。