大規模言語モデルによる法律サービスの変革！速度と正確性で人間を超える？

Large language models 2024年06月28日

3つの要点
✔️ 大規模言語モデルがジュニア弁護士やアウトソースの法律実務者と同等以上の性能を達成
✔️ 大規模言語モデルは契約レビューにおいて実務家よりも速く、低コストでタスクを完了させることが可能
✔️ 異なる契約タイプや、契約交渉といった契約文書を超えた複雑なシナリオでの性能評価が今後の課題

Better Call GPT, Comparing Large Language Models Against Lawyers
written by Lauren Martin, Nick Whitehouse, Stephanie Yiu, Lizzie Catterson, Rivindu Perera (Onit AI Centre of Excellence)
(Submitted on 24 Jan 2024)
Comments: Published on arxiv.
Subjects: Computers and Society (cs.CY); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

法律業界における人工知能（AI）の進出は、法律サービスの新たな可能性を生み出しています。しかし、法的問題を解決し発見する上での生成AIや大規模言語モデル（LLM）の活用に関する研究は、まだ探求の余地が多く残されています。特に、人間の法律専門家が長年にわたって蓄積してきた深い知識や専門性に依存する法的問題の正確な分類や特定において、これらの先進的な技術がどのように機能するかを理解することは、極めて重要です。

このギャップを埋めるため、この論文では、法律分野における大規模言語モデルの能力を深掘りする実験的かつ探索的な研究を行っています。この論文では、実際の法律作業において、大規模言語モデルが人間の法律実務者、特にジュニア弁護士やアウトソースの法律実務者とどのように比較されるかを評価しています。大規模言語モデルの迅速な発展を踏まえると、これらの技術が既存の法律実務において、どの程度効果的に機能するか、また、専門性や効率性において人間の専門家を上回る可能性があるかについて、深い洞察を得ることができます。

この論文では、特に、以下の3つの疑問に焦点を当てています。

大規模言語モデルは契約書の法的問題を特定し、位置づける能力において、ジュニア弁護士やアウトソースの法律実務者よりも優れているか？
大規模言語モデルは契約書のレビューを、ジュニア弁護士やアウトソースの法律実務者よりも迅速に行えるか？
大規模言語モデルは契約書のレビューを、ジュニア弁護士やアウトソースの法律実務者よりもコスト効率良く行えるか？

この研究を通じて、法律分野における大規模言語モデルの潜在的な能力と限界についての包括的な理解を深め、法律とAIの専門家にとって貴重な洞察を提供することを目指しています。

手法

この論文では、大規模言語モデルの性能を、ジュニア弁護士やアウトソースの法律実務者（LPO）の業務と比較しています。比較の基準として、シニア弁護士を設け、契約文書における法的問題の特定とその位置の特定能力を試験しています。このアプローチは、実際の弁護士が契約書をレビューする際のプロセスを再現することを目指しています。また、Onit Incによって定められた倫理基準に則り、データの収集や分析、参加者の関与に至るまで厳格な倫理規範を遵守しています。参加者は、研究目的、データの使用方法、そしていつでも参加を撤回できる権利について事前に詳細に説明を受けています。また、個人が識別される情報はデータから除去し、参加者の匿名性を保護されています。また、利用された契約データは、プロセス中に匿名化を施し、さらに詳細な分析が可能なように非識別化することで、データのプライバシーを厳守しています。倫理委員会を通じて倫理的監視と準拠を確立し、研究活動がデータ保護およびプライバシー関連法規に従うようにしています。これには、研究プロセスの監査や法的な遵守確認が含まれ、高い倫理基準の下で研究が行われることを保証しています。

また、実際の法的契約から選択した10件の調達契約をデータソースとして使用しています。これらは全て、機密性を守るために匿名化されています。調達契約は、法律実務家が頻繁に取り組む契約のタイプであり、秘密保持契約との普及性を踏慮して選ばれました。契約の選択にあたっては、アメリカ合衆国（US）とニュージーランド（NZ）のように異なる法律体系がバランス良く表現されるよう考慮されています。このアプローチにより、研究の成果がより広い法律体系に適用可能であることを目指しています。

また、シニア弁護士は、定義された標準に従って契約がどの程度準拠しているかを評価し、基準データを確立する役割を担っています。彼らは契約が定められた標準に準拠するか、または逸脱するかを判断し、その理由となる契約の具体的なセクションを特定しています。また、契約から必要な情報が欠如している場合には、それを明示的に記録することも求められています。これらのデータは集約され、各評価基準に対するベンチマークを形成する基準となっています。

さらに、契約レビューに要する平均時間も記録され、法律実務家が契約書をレビューするのに通常要する時間と、ジュニア弁護士、LPO、および大規模言語モデルによる時間とを比較するための基準とされています。このようにして、データの収集から分析にいたるまでの過程は、研究の信頼性と透明性を高めることを目的としています。

弁護士の時給および大規模言語モデルのコストの設定としては、弁護士の時給は、ACCの2023年法務部門報酬調査などの業界ベンチマークレポートによって決定された社内弁護士の料金と、Onit Inc.が保持する市場データによって決定された外部弁護士の料金に基づいています。大規模言語モデルのコストは、サービス提供者によって提供される商業価格を通じて決定されています。

さらに、この論文では、大規模言語モデルのモデルを選択するために、複数の要因を考慮しています。これには、法律領域におけるモデルの適用可能性と効果を試験する予備テストの結果、およびモデルのコンテキストウィンドウの制限が含まれています。特に、OpenAI、Google、Anthropic、Amazon、Metaなどの主要企業が開発したモデルを中心に、その性能と適用性を精査しています。

予備テストでは、これらのモデルがサンプル契約文書をどのように処理し分析するかを検証しています。分析の焦点は、モデルが法的問題をどれだけ正確に特定し位置づけるか、および推論能力の程度でした。研究問題に対処するために最適なコンテキストウィンドウのサイズを特定することにも重点を置き、契約文書を全体的に理解するために必要な文脈情報を扱うことができるモデルを選択しています。

また、この論文での分析では、コンテキストウィンドウのサイズがモデルの性能に直接影響することが明らかになっています。16,000トークン未満のコンテキストウィンドウを持つモデル、例えばLLaMA2やAmazon Titanは、文書を複数の部分に分割する必要があり、これが非効率的であることがわかりました。このような分割は、契約全体の分析能力を損ねらしました。そのため、私たちは大きなコンテキストウィンドウを持つモデルに焦点を絞り、法律文書分析におけるモデルの能力を代表的に評価するための基準を設けています。

このアプローチにより、法律分析における大規模言語モデルの適用可能性と効果を深く探ることを可能にしています。これらのモデルが法律領域でどのように機能するかについての理解を深めることで、今後の研究や実践の進めに役立つ洞察を提供することを目指しています。

さらに、プロンプトエンジニアリングは、大規模言語モデルが契約レビュータスクを効率的かつ正確に完了するために不可欠です。このプロセスでは、LLMに特定の役割を採用してもらい、定められた標準に基づいて契約を評価する任務を与えます。具体的には、プロンプトは役割、タスク、文脈の3つの主要要素で構成されています。

役割：大規模言語モデルには、タスクを遂行する際に弁護士としての役割を採用するよう指示されます。
タスク：大規模言語モデルは、契約が定められた標準に従っているか、またはそこから逸脱しているかを決定し、問題の位置を特定する任務を担います。
文脈：大規模言語モデルに、弁護士、LPO、または契約レビュアーに通常提供される指示を模倣したもので、契約のターゲットオーディエンス、契約当事者に関する背景情報、および契約が交渉された特定のシナリオなどを含みます。

この論文では、これらの要素を用いて、大規模言語モデルが実際における弁護士の作業を再現し、契約文書のレビューを行う際の文脈理解を深めることを目指しています。また、大規模言語モデルが遂行する各タスクにおいて最適な成果を出すために、文脈要素をどのように設計すべきかを慎重に考慮しています。プロンプトエンジニアリングの具体的な例は、下図のようになります。

実験と結果

この論文では、法律領域における大規模言語モデルの適用可能性を探るため、シニア弁護士、ジュニア弁護士、アウトソースの法律実務者（LPO）の3つのグループ間での合意度を、クロンバックのアルファを使用して分析しています。合意度の結果は下図のとおりです。

分析により、参加者全体の間での合意度は非常に高く、アルファ値0.923366という非常に強い一致を示しています。しかし、シニア弁護士のみの合意度は、0.719308と最も低く、経験豊富な実務家の間での契約内の問題特定に対するアプローチがより多様であることが示唆されています。一方で、ジュニア弁護士はアルファ値0.765058でやや高い合意度を示し、これはより一貫したトレーニング方法や既存の法的枠組みへの遵守を反映している可能性があります。

また、ジュニア弁護士およびアウトソースの法律実務者（LPO）と比較して、異なる大規模言語モデルの正確性を評価しています。この比較評価は、シニア弁護士の判断を基準データとして行われています。特に、GPT4-1106とLPO実務家が法的問題の特定においてFスコア0.87で最高のパフォーマンスを発揮しています。これは、これらのグループが法的問題を特定する際の高い精度と信頼性を示しています。一方、ジュニア弁護士はFスコア0.86を達成し、わずかに下回っています。これらの結果は、大規模言語モデルが法律契約のレビューというタスクにおいて、時間効率でジュニア弁護士およびLPOの両方よりも優れていることを示しています。

また、法律契約のレビュー時の時間効率に関する分析も実施しています。この分析からは、シニア弁護士が最も効率的であることが示されましたが、大規模言語モデルは顕著に高い時間効率を示しています。特に、GPT-1106が最も長い処理時間を要しましたが、Palm2 text-bisonが最も短い時間で処理を完了しました。この結果は、大規模言語モデルが法律契約のレビューというタスクにおいて、ジュニア弁護士およびLPOよりもはるかに時間効率が良いことを示しています。

さらに、弁護士、LPO実務家、およびLLM間での詳細なコスト比較も行っています。この比較は、特に契約内の法的問題の特定と位置付けを含むタスクでLLMを法律領域に導入する経済的な影響を理解するために重要です。人間の実務家にかかるコストと比較して、LLMは文書あたりのコストを大幅に低く抑えることができることが明らかになっています。このコスト効率の高さは、法律分野でのLLMの利用拡大に向けた強力な動機となります。

特に注目に値するのは、LPO実務家の間での合意が完璧なアルファ値1に到達し、彼らの反応に絶対的な一致が見られた点です。これらの結果から、大規模言語モデルが法律文書の分析において、実務家の間での多様なアプローチと一致をどのように補完し、強化できるかについて、貴重な洞察が得られています。

まとめ

この論文では、大規模言語モデルがアウトソースの法律実務者（LPO）やジュニア弁護士と同等に、契約内の法的問題を的確に特定できることを示しています。特筆すべきは、契約レビューにおける大規模言語モデルの速度です。計算上の効率の高さが、人間の実務家よりもテキストを速く処理・分析できるという顕著な利点をもたらしています。この速度は、契約レビューの生産性と対応時間を劇的に改善する可能性があります。また、コストに関する分析では、大規模言語モデルがジュニア弁護士やLPOと比較して、契約レビューのはるかに低コストな代替手段を提供することが確認されています。高い精度、速い処理速度、そして低コストは、契約レビュープロセスを効率化したい法律実務家や法律事務所にとって、大規模言語モデルを魅力的な選択肢としています。

ただし、研究から明らかになったポイントを踏まえ、さらに深い探求が必要としています。特に、異なる契約タイプを通じた大規模言語モデルの性能の広範な評価と、基準データセットの充実が求められます。また、契約文書の本文を超えた複雑な文脈を理解することが必要な、契約交渉の領域での大規模言語モデルの潜在能力の探索にも着目しています。

これらの将来的な研究が、法律業界における大規模言語モデルの可能性を全面的に把握し、今回の研究で見つかった限界を超えるための一助となることが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。