【RiceChem】LLMによる自動長文採点(ALAG)を評価するデータセット
3つの要点
✔️ ALAG専用に設計された独自のデータセット「RiceChem」を提供し、教育NLPの重要な分野でさらなる研究を促進
✔️ 長文の独自の複雑さに対応するための新しい採点形式を提案
✔️ 大規模言語モデルのALAGタスクに対する包括的な評価を提示し、この分野の将来の研究における課題と機会を提示
Automated Long Answer Grading with RiceChem Dataset
written by Shashank Sonkar, Kangqi Ni, Lesa Tran Lu, Kristi Kincaid, John S. Hutchinson, Richard G. Baraniuk
(Submitted on 22 Apr 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
教育における自然言語処理(NLP)の分野では、これまで短答の採点や自由記述のエッセイ採点に重点が置かれてきました。しかし、この論文では新たな視点から、自動長文採点(ALAG)という比較的未開拓の領域を研究しています。
自由記述のエッセイは一貫性や独創性といった特性で評価されるのに対し、長文の回答は事実に基づいており、より精緻な採点アプローチが必要です。従来の自動短答採点(ASAG)では、回答を「正しい」「部分的に正しい」「矛盾している」「無関係」「領域外」の5つのカテゴリに分類しますが、長文の回答は複数のカテゴリの特性を同時に示すことがあり、5つの分類では不十分であり、長文の回答には適していません。
そこで、この論文は、ALAGの研究を進めるために大学レベルの化学コースから1264の長文回答を収集した独自のデータセット「RiceChem」を作成しています。RiceChemは27のルーブリックの項目に基づいて各回答が評価されており、合計8,392のデータがあります。このデータセットの平均単語数は120であり、既存のデータセット(SciEntsBank: 13、Beetle: 10、Texas 2011: 18)よりもはるかに多く、ALAGの研究に適したデータセットとなっています。
従来のASAGの方法の限界を考慮し、ALAGをルーブリックの包含タスクとして再定義しています。この新しい方法では、各ルーブリックの項目が学生の回答が満たすべき基準として機能しています。自然言語推論モデルを使用して各ルーブリックが回答に包含されているかを判断し、より精緻で包括的な採点を可能にしています。
RiceChemデータセットを用いたALAGタスクのベースラインを設定するため、BERT、RoBERTa、BARTなどのエンコーダーモデルを微調整しています。結果として、ルーブリックベースの方法を使用してもALAGの複雑さが増すことが明らかになっています。ALAGにおけるルーブリックベースの形式は、従来のスコアベースのアプローチに比べて学生の回答の微妙な点や多面的な側面をより正確に捉えることができます。
また、コールドスタートのシナリオにおけるモデルの性能を調査し、教育環境でのデータ効率と実際の展開に関する貴重な洞察を提供しています。
さらに、最先端のオープンソース大規模言語モデルをRiceChemでベンチマークし、これらの結果をGPTモデルと比較しています。これにより、ALAGがASAGに比べていかに複雑であるかが明らかになっています。ルーブリックベースの方法を活用しても、大規模言語モデルのRiceChemでの性能がASAGのSciEntsBankに比べて低いことは、ALAGタスクの大きな難しさを示しています。
この研究は、教育NLPの分野で自動長文採点(ALAG)に取り組む最初の試みの一つです。
データセットと方法
ここでは、まず独自のRiceChemデータセットを紹介し、次にALAGタスクの問題定義を行います。この論文で提案しているRiceChemデータセットを使用した自動長文採点(ALAG)の概略図は下図のようになります。
この図は、ALAGをルーブリック包含問題として定式化するという新しい方法を強調しています。各学生の回答(前提)を対応するルーブリックの項目(仮説)とペアにし、これらのペアを微調整したALAG-トランスフォーマーモデルによって処理しています。モデルは、回答がルーブリックの項目を含意しているかどうかを予測します。RiceChemでのルーブリックの使用により、詳細なポイントごとの評価が可能となり、採点プロセスが設計上解釈可能になります。
前述の通り、ALAGタスクを検証するために、RiceChemデータセットを開発してます。このデータセットは、ALAGに取り組む研究者にとって貴重なリソースであるだけでなく、ルーブリックを使用して学生に有意義なフィードバックを提供できる、より信頼性が高く解釈可能な採点システムの開発を可能にします。
RiceChemには、大学レベルの化学コースから収集された4つの試験問題、27のルーブリック項目、および1264の採点済み学生回答が含まれています。複数のティーチングアシスタントが個々のルーブリック項目に対して学生の回答をTRUEまたはFALSEのラベルで評価しました。合計で4,880のTRUEラベルと3,512のFALSEラベルがあります。各ルーブリック項目には指定された点数があり、最終的なスコアは正しく回答されたルーブリック項目のスコアを集計して決定されます。
推論モデル M : (P, H) → L が与えられるとすると、これは前提Pと仮説Hを入力として受け取り、PがHを含意するかどうかを示すラベルL ∈ {True, False}を予測します。採点を推論問題として定式化するために、学生の回答Rとルーブリック項目Iをそれぞれ前提と仮説として扱うことができます。つまり、(R, I)をモデルMに入力してラベルLを予測します。
この論文が提案するALAGの方法は、学生の回答からルーブリック項目の含意を予測するために言語モデルを学習することで、この定式化を実現します。予測は、学生の回答において正しく対応されたルーブリック項目を効果的に特定し、自動的なフィードバックを提供することができます。
実験と結果
さらに、ALAGにおける含意ベースおよびルーブリックベースの定式化の重要性を強調し、従来のスコアベースのアプローチに対する優位性を示します。また、ラベル付きデータが限られている状況(コールドスタート)でのこれらのモデルの性能を調査し、教育現場での実用展開における意味合いを考察します。最後に、最新のオープンソース大規模言語モデル(LLM)のRiceChemにおける性能を評価し、その結果をGPTモデルと比較し、ALAGの複雑さがASAGよりも増していることを示します。
まずRiceChemデータセットを用いたトランスフォーマー言語モデルの学習手順と、実験全体で使用される評価指標についてです。RiceChemデータセットでトランスフォーマーモデルを微調整するために、データを80-10-10の学習-検証-テストに分割し、前処理しています。各質問について学生の回答の80%を学習、10%を検証、10%をテスト用にランダムに選び、これらの回答が重ならないようにしています。
実験はHugging Face transformersライブラリを使用して行っています。学習プロセスではNVIDIA A100-PCIE-40GB GPUを使用します。学習中、AdamWオプティマイザを使用し、初期学習率を2e-5に設定します。各更新はミニバッチサイズ16で行い、最大10エポックでモデルを学習しています。ハイパーパラメータαとβはそれぞれ0.9と0.999に設定されます。学習後、検証データに対するF1スコアが最も高いモデルを評価用の最良モデルとして選択しています。実験のベースラインとして、精度、適合率、再現率、F1スコアを含む包括的な評価指標セットを使用します。ロバスト性を確保するため、5つの異なるシードで5回の実行の平均と標準偏差を報告しています。
最新の識別言語モデル、例えばBERT、RoBERTa、BARTの性能をRiceChemデータセット上で評価してます。下表では、ベースモデルと大規模モデルの結果を比較しています。特に、大規模モデルはベースモデルを上回り、より高度なモデルを使用する利点を示しています。ただし、BERTモデルに関しては、微調整の不安定性に起因する例外も見られます。
また、下表では、RiceChemデータセット上での言語モデルとそのMNLIでファインチューニングされたバージョンの性能を比較します。結果は、MNLI(多ジャンル自然言語含意コーパス)データセットでファインチューニングされたモデルが精度とF1スコアの両方で大幅な改善を示し、ALAGを含意問題として定式化する価値を強調しています。
ALAGを含意タスクとして定式化することで、さまざまなトピックと言語の種類を網羅する前提-仮説ペアを含むMNLIデータセットの使用が可能になります。400万の例を持つMNLIデータセットは、豊富な言語知識と推論能力を提供し、ALAGタスクに効果的に転移することができます。
含意定式化により、MNLIデータセットで事前学習されたモデルを活用でき、前提と仮説の含意関係を強く理解しているモデルを微調整することで、長文採点の特定のドメインに効率的に適応させることができます。
下表(再掲)に示される性能向上は、この転移学習アプローチの有効性を裏付けています。RoBERTaモデルは、MNLIで微調整されると、精度が3.2%向上し、F1スコアが2.8%向上しています。同様に、BARTモデルは精度が1.8%向上し、F1スコアが1.4%向上しています。これらの改善は、MNLIデータセットからALAGタスクへの知識の成功した転移を示しており、含意定式化によって実現されています。
含意定式化は、MNLIのような大規模データセットの使用を可能にするだけでなく、ALAGに対するより自然で解釈可能なアプローチを提供します。学生の回答とルーブリック項目の含意関係を判定するタスクと採点プロセスを整合させることで、より直感的で説明可能なフレームワークを作成します。
また、ルーブリックを使用した自動採点は、自動短答採点(ASAG)や自動エッセイ採点(AEG)において性能の向上が示されています。この実験でも、これが自動長答採点(ALAG)にも有効であることが確認されています。ルーブリックベースのアプローチは、従来のスコアベースの方法と比較して、平均で9.2%の精度向上と15.4%のF1スコアの向上を示しています。
ASAGやAEGに関する先行研究と同様に、私たちの実験もルーブリックベースの形式がALAGにおいて重要であることを確認しました。しかし、長文の複雑性や多面的な性質により、ALAGにおけるルーブリックベースの形式の重要性はさらに顕著です。
これを例示するために、従来のスコアベースのアプローチとルーブリックベースのALAGアプローチを比較しています。スコアベースのアプローチでは、RiceChemデータセットを前処理し、データを文(生徒の回答)とラベル(スコア)に構造化し、言語モデルが0から8までの整数スコアを予測します。一方、ルーブリックベースのALAG形式では、採点プロセスをより小さく管理しやすいコンポーネントに分解し、モデルがルーブリック項目によって定義された回答の特定の側面に焦点を当てることができます。
下図(再掲)は、ルーブリックベースの方法が従来のスコアベースの方法と比較して、精度が9.2%向上し、F1スコアが15.4%向上することを示しています。この大幅な性能の向上は、ALAGにおいてルーブリックを活用する重要性を強調しています。長文の回答の採点という複雑なタスクを、より小さく明確に定義されたルーブリック項目に分解することで、モデルは生徒の回答のニュアンスや多面的な側面をより効果的に捉えることができます。
高品質なルーブリックを作成することは困難であり、慎重な考慮と努力が必要です。しかし、この努力は一度だけ行えば、その後の自動採点プロセスで繰り返し利益を享受できます。ルーブリックは、回答の主要な側面を評価するための包括的なフレームワークを提供し、より正確で信頼性のある採点結果を得ています。また、ALAGにおけるルーブリックの使用は、モデルの性能を向上させるだけでなく、採点プロセスの解釈性と透明性を高めます。モデルの予測を特定のルーブリック項目に合わせることで、教育者や生徒は回答の強みと弱みをより明確に理解し、ターゲットを絞ったフィードバックと改善を促進することができます。
さらに、教育の現場では、新しいコースや科目、質問タイプを扱う際に、学習データが限られている状況が一般的です。そのため、自動採点モデルがコールドスタート設定でどのように性能を発揮するかを評価し、訓練データが増えるにつれてその性能がどのように進化するかを理解することが重要です。このセクションの分析は、モデルのデータ効率性に関する貴重な洞察を提供し、満足のいく採点結果を達成するために必要な最小限のラベル付きデータの量を決定するのに役立ちます。
まず、RoBERTa-Large-MNLIモデルの見たことのない質問に対する性能を評価し、一部の質問でモデルを微調整し、事前の学習データなしで新しい質問の回答を採点するシナリオをシミュレートしています。この調査のために、データセット内の3つの質問にモデルを学習し、残りの見たことのない質問をテストに使用しています。
下表に示すように、モデルは質問間で60.6%から68.7%の精度と0.629から0.717のF1スコアを示し、一定の一般化能力を持っていることがわかります。これは、同様のタイプの質問に微調整されたモデルが、見たことのない質問に対処するための転移可能な知識をある程度獲得していることを示しており、新しい質問のラベル付きデータが乏しい教育現場で価値があると言えます。
次に、RoBERTa-LargeモデルとそのMNLI微調整バージョンの訓練データの量が5%から80%に増加するにつれての性能を調査します。下図は、両モデルの精度とF1スコアの傾向を示しています。予想通り、学習データが増えるにつれて、性能は一貫して向上します。RoBERTa-Largeの場合、精度は73.2%から84.1%に向上し、F1スコアは0.772から0.864に上昇します。同様に、MNLIの微調整バージョンでは、精度が79.2%から86.8%に向上し、F1スコアが0.823から0.888に上昇します。
性能向上は、RoBERTa-Largeの場合は学習データの40%、RoBERTa-Large-MNLIの場合は20%を超えると減少しています。この観察は、モデルが比較的小さな量のラベル付きデータでも競争力のある採点結果を達成できることを示唆しており、追加データの利益がある程度を超えるとあまり顕著ではなくなることを示しています。さらに、精度とF1スコアの標準偏差は異なるシード間で1.12%以内に収まっており、モデルの性能の信頼性と一貫性を示しています。
さらに、ALAG(自動長文採点)の文脈でこれらのモデルの可能性を評価するため、RiceChemデータセット上でいくつかの大規模言語モデルのゼロショット性能を評価しています。
これらの大規模言語モデルは、多くの分野で高い性能を示しているにもかかわらず、RiceChemデータセットは非常に手強いデータセットであることがわかります。最も性能が高かったGPT-4は、70.9%の精度と0.689のF1スコアを達成し、ALAGタスクの複雑さを浮き彫りになっています。この結果は、GPTモデルがASAGタスクにおいて示した結果と比較すると特に顕著です。
ASAGとALAGの複雑さの違いは、F1スコアの5ポイントの差異以上に大きい可能性があります。RiceChemにおけるルーブリックの使用は、モデルの性能を向上させる構造化されたフレームワークを提供していますが、それでもGPT-4はルーブリックなしのASAGタスクにおける性能に匹敵することが困難です。
下表(再掲)の結果から、RiceChemデータセット上でのさまざまな大規模言語モデルの性能の違いも明らかになっています。GPT-4とGPT-3.5がトップの性能を示す一方で、Qwen1.5 32B ChatやMistralのような他のモデルも有望な結果を示しており、それぞれF1スコアは0.456と0.429でした。これらの発見は、大規模言語モデルのアーキテクチャと学習方法がALAGの複雑さに対応する能力に大きな影響を与えることを示しています。
まとめると、RiceChemデータセット上での大規模言語モデルのベンチマークは、ALAGタスクがもたらす独自の課題を浮き彫りにしています。ルーブリックの利点があっても、ASAGとALAGタスク間の性能差は、長文の事実ベースの回答を評価するために特化したモデルと技術のさらなる研究開発の必要性を強調しています。大規模言語モデルが進化し続ける中で、ALAGの文脈でのその可能性を探り、教育環境における自動採点システムの改善に向けた戦略を開発することが重要です。
まとめ
この論文では、新しいタスクである自動長文採点(ALAG)を紹介し、この分野の研究を進めるために特別に設計されたRiceChemデータセットを提案しています。ALAGのルーブリックベースの定式化は、長文の回答を評価するための精緻で教育的に適したアプローチを提供し、従来の自動短答採点(ASAG)方法と比較して、より包括的な評価が可能です。
広範な実験を通じて、ルーブリックベースの定式化の重要性、含意定式化の価値、コールドスタートシナリオがもたらす課題を実証しています。さらに、大規模言語モデルを含む最先端モデルのベンチマークにより、ALAGがASAGと比較してはるかに大きな挑戦であることが確認されています。
この研究が教育NLPの重要な分野でさらなる研究を刺激し、ALAGタスクの複雑さと精緻さに対応できる高度なモデルの開発に貢献することが期待されます。
この記事に関するカテゴリー