GPTは司法試験に合格できるのか

Computation and Language 2024年02月26日

3つの要点
✔️ 司法試験は、法律実務を行うためのライセンスを取得するために必要とされ、合格するには高度な法律知識が求められます。
✔️ 最先端のAI技術を使用して、試験の一部のパフォーマンスを評価します。
✔️ 司法試験のMBE部分において非常に良い成績を収めたことが示されました。

GPT Takes the Bar Exam
written by Michael Bommarito II, Daniel Martin Katz
(Submitted on 29 Dec 2022)
Comments: Additional material available online at this https URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

司法試験は、法律実務を行うためのライセンスを取得するために必要とされ、合格するには高度な法律知識が求められます。多くの受験者は、試験に合格するために数年間の法科大学院での教育を受け、試験に特化した準備を行います。しかしながら、合格率は比較的低く、約5人に1人が最初の試行で合格できません。なかでも、マルチステート多肢選択（MBE）セクションは、法的な基本原則や法律の適用方法に関する複数の選択肢の質問で構成されています。司法試験に合格するためには、一般的にMBEセクションで一定の合格基準を満たす必要があります。

そこで、最先端のAI技術であるOpenAIのtext-davinci-003モデル（通称GPT-3.5）を使用して、MBE セクションのパフォーマンスを評価しています。特定のトレーニングデータなしでも高いパフォーマンスを発揮するGPT-3.5ですが、模擬試験で高い正解率を達成できるでしょうか？

背景

法制度はますます複雑化しており、法的サービスの需要が増えています。この状況に対応するために、AIとプロセスエンジニアリングが導入され、法律の専門家だけでなく一般の人々にも利益をもたらしています。

しかし、法律文書や用語は非常に複雑であり、理解するのが難しい場合があります。法的言語は通常の言語と異なり、高度に形式化されているため、一般の人々やAIシステムにとって理解が難しいことがあります。また、法律用語には文脈に応じて異なる意味を持つ場合があります。

こうした課題にもかかわらず、AI技術の進歩により、自然言語処理（NLP）の分野で大きな進歩がありました。特に、トランスフォーマーベースの大規模言語モデル（LLM）の登場により、高度なテキスト処理が可能になりました。これらのモデルは、複雑な法的課題の評価にも挑戦しています。

データ

司法試験は、法律だけでなく医学、歯学、薬学、会計、工学などの専門分野における専門資格試験です。米国では、各州が独自の法律免許要件を管理していますが、全米司法試験官会議（NCBE）が米国全土で使用される司法試験教材の大部分を設計しています。

司法試験に合格するには多くの準備が必要です。一般的に、試験に合格するためには、大量の理論的知識と試験の特有の質問を理解し、答える能力が必要です。

近年、ほとんどの州が統一司法試験（UBE）を採用しており、その一部は多肢選択テスト、エッセイテスト、およびシナリオベースのパフォーマンステストの3つのコンポーネントで構成されています。多肢選択テストは、通常、司法試験全体のスコアの50％に相当し、法律知識と読解力をテストするためのものです。

この研究では、NCBEが提供する標準試験準備資料を購入し、司法試験の練習問題や模擬試験を使用しています。

提案手法

GPT-3.5の実験的評価に使われたtext-davinci-003テキスト補完APIでは、ゼロショットプロンプトと呼ばれる手法が使われました。これは、事前にモデルを特定のタスクにトレーニングすることなく、新しいタスクやドメインに対しても即座に適用できる手法です。

まず、プロンプトエンジニアリングと呼ばれるアプローチが導入されます。これは、モデルが適切な出力を生成するために必要なプロンプトの設計と調整を行うプロセスです。複数のプロンプトタイプが試され、最も効果的なものが見つかりました。

次に、APIハイパーパラメーターの調整を行います。以下のパラメーターは、GPTモデルがテキストを生成する際にその出力の品質や多様性を制御するために使用されます。

・温度（Temperature）: モデルが生成するテキストの多様性を制御するためのパラメーターです。温度が低いと、モデルはより確信を持った、より予測可能なテキストを生成しますが、高い温度ではより多様なテキストが生成されます。
・Top-p sampling : モデルが生成するトークンを、その出現確率の合計がある閾値を超えない範囲内でサンプリングする方法です。これにより、生成されるトークンの多様性が制御されます。
・best of : モデルが複数の候補を生成した際に、最も適切とされる候補を選択するためのパラメーターです。これにより、最も適切な回答が選択される確率が高まります。
・max tokens : 生成されるテキストの最大トークン数を制限するパラメーターです。これにより、過剰な出力の生成が抑制されます。

さらに、事前トレーニングされたモデルに特定のタスクに合わせるための微調整が行われます。未知の模擬MBE司法試験問題を用いた微調整の試みも行われましたが、本番のモデルの性能向上にはつながりませんでした。

結果

この研究では、プロンプトとパラメーターの組み合わせにより、合計107の試験を実施しました。その結果、プロンプトスタイル#7（上位3つの選択肢のランク順）が最も効果的であり、このプロンプトのパラメーターの組み合わせ全体で41のサンプル実行を収集しました。この実行結果は、ベースラインの合格率と比較して、GPTがまだ完全に合格していないことを示していますが、ランダム確率よりも高い合格率を示しています。さらに、GPTは特定のカテゴリーで人間の受験者と同等の性能を示していますが、他のカテゴリーではその差が大きくなっています。以下の図は、GPT-3.5とNCBEが報告した学生の質問カテゴリ別の成績の比較です。

このパフォーマンスの差異は、GPTのトレーニングデータに含まれていないか、モデルの知識体系が削除された可能性、または試験の設計の複雑さに起因する可能性があります。これらの可能性を探るために、GPTが「近い」補正になるかどうかを調査しました。結果として、特定のカテゴリーでGPTの回答がランクと正確性の相関が低いことが示され、試験の設計がパフォーマンス低下の原因である可能性が浮上しました。

さらに、GPTの2番目に優れた回答は正確率と高い相関があり、上位2つの回答はベースラインのランダム確率を超えています。全体的に、GPTの回答は合格率を大幅に上回っており、特に民事訴訟のカテゴリーを除いて、強い相関関係が示されています。

結論

この研究では、GPT-3.5が司法試験のMBE部分において非常に良い成績を収めたことが示されました。GPT-3.5は、微調整を行わずに、人間の受験者と同等以上の合格率を達成し、ランダム推測のベースラインを大幅に上回りました。これは、GPT-3.5が法的領域における理解と推論能力においてかなり進化していることを示唆しています。

今後の展望として、GPT-4やLAIONのBloomファミリーモデルなどの新しいモデルの登場が期待されます。これらのモデルは、さらなる法的理解と推論能力の向上をもたらす可能性があります。また、MBE以外の試験セクションでのGPT-3.5の評価も計画されており、これにより、GPTシリーズや他のモデルが法的試験全体でどのように機能するかについてさらに理解が深まるでしょう。