【DetectGPT】文章の作者はAIか、それとも人間か？見分ける方法の提案

zero shot 2024年01月23日

3つの要点
✔️ 言語モデルは非常に進化しており、学校や新聞などで広く活用されています。
✔️ この研究では、文章が機械によるものか人間によるものかを見分ける新しい手法が提案され、その性能がかなり優れていることが示されました。
✔️ 検出にはモデルの確信度や微細な変更の影響が重要であり、今後の研究でさらなる改善が期待されています。

DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature
written by Eric Mitchell, Yoonho Lee, Alexander Khazatsky, Christopher D. Manning, Chelsea Finn
(Submitted on 26 Jan 2023 (v1), last revised 23 Jul 2023 (this version, v2))
Comments: ICML 2023
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、非常に大規模な言語モデル（LLM）が生成した文章を検出する新しい手法に焦点を当てています。通常、このモデルが生成する文章は、確率関数の特定の形に従っています。特にモデルの確率関数の「負の曲率領域」と呼ばれる箇所に、モデルが生成した文章が集中する傾向があることが指摘されています。

そこで、研究者たちはこの特徴を利用して、新しい検出手法「DetectGPT」を提案しています。DetectGPTは、モデルが生成した文章を検出するための基準を設けますが、これが非常に興味深いのはなぜでしょうか？DetectGPTは、モデルが計算した確率と、他の言語モデルからランダムに作った変更だけを見て、それによって文章を見破るのです。

簡潔に言えば、DetectGPTはモデルが生成した文章を見破るのに非常に役立つ手法です。そして、この研究者たちはDetectGPTがこれまでの手法よりも優れており、特に大規模なモデルが生成したフェイクなニュースを見つけるのに非常に有望であることを報告しています。DetectGPTの性能は、これまでの最も優れた手法よりも高いとされています。

上図では、機械生成された文章x ^fake〜p_θ(x)（左）と人間が書いたテキストx ^real〜p _human(x)（右）の対数確率曲率の傾向が比較されています。機械生成テキストは通常、対数確率が低い負の曲率領域に位置し、近くのサンプルも平均的に低い確率を示します。一方で、人間が書いたテキストは、負の曲率が顕著な領域を占めず、近くのサンプルの確率は高いか低いかが変動する可能性があります。

導入

この論文は上の概要の通り、大規模な言語モデル（LLM）が生成したテキストを検出する新しい手法であるDetectGPTについて述べています。LLMは流暢で説得力のある応答を生成できますが、その生成物が時折誤っていることが明らかになっています。これにより、学生のエッセイ執筆やジャーナリズムなどでLLMが人間の労働を置き換える際に問題が生じています。

DetectGPTは、LLMが生成したテキストを検出するための新しいゼロショット手法であり、特にモデルが生成したテキストが対数確率関数の負の曲率領域に存在する傾向があるという仮説に基づいています。この手法は、別のモデルやデータセットのトレーニングが不要であり、機械生成テキストの検出において既存の手法よりも高い精度を示しています。

論文の主な貢献は、モデルの対数確率関数の曲率がモデルサンプルでより顕著に負になるという仮説の特定と検証、およびDetectGPTの提案です。この手法は、対数確率関数のヘッセ行列のトレースを利用して、モデルが生成したテキストを効果的に検出します。

図1では、DetectGPTが特定の大規模言語モデル（LLM）（たとえばGPT-3）によって生成されたかを判定するための手順が示されています。まず、候補の文章xを評価するために、DetectGPTはT5などの一般的な事前トレーニング済みモデルを使用して、その文章に微小な変更を加えた摂動x~iを生成します。そして、元の文章xのLLMにおける対数確率と、各摂動サンプルx~iの対数確率を比較します。もし平均対数比率が高ければ、そのサンプルはソースモデルから生成された可能性が高いと判断されます。

実験

前述したようにDetectGPTは、特別なトレーニングを受けたモデルを使って、機械生成されたテキストを見つける手法です。この手法はゼロショットアプローチを使って、モデルが学習したことがない新しい状況にも対応できます。実験では、DetectGPTの性能が他の手法よりも高く、特にXSumストーリーやSQuADの文脈では改善されていることが分かりました。DetectGPTは教師あり手法よりも広く適用でき、異なる言語やトピックにも対応できることが示されました。

DetectGPTは、機械生成されたテキストが大きく変更されてもしっかりと見つけることができ、様々なデコード戦略にも対応可能です。また、DetectGPTはソースモデルが不明な場合でも高い検出性能を持っています。実験では、DetectGPTの性能向上にはモデルやマスク充填モデルのサイズが影響し、摂動の数も関係していることが明らかになりました。データの性質やテキストの長さも検出に影響を与え、特に適切なしきい値が重要であることが示唆されました。

この研究は、DetectGPTが異なる状況やモデルに適応でき、機械生成テキストの検出において有望な手法であることを示しています。

図4では、実際のテキストと生成されたテキストの大規模データセットでトレーニングされた教師あり機械生成テキスト検出モデルが、既存のテキストにおいてDetectGPTと同等かそれ以上のパフォーマンスを示しています。ただし、ゼロショット手法は、新しいドメイン（下の行）において、例えばPubMedの医学テキストやWMT16のドイツのニュースデータなどに対してすぐに使用できることが示されています。これらのドメインでは、監視付き検出器が分布シフトの影響を受けて正確に機能しない可能性があります。

図5では、T5-3B生成テキストのモデルサンプルの一部をランダムにマスクし、その部分を人間による編集でシミュレートすることで、機械生成テキストにおける編集の影響を評価しています。結果として、編集が増加すると他の手法のパフォーマンスが低下する中、DetectGPTが一貫して最も正確な検出を示しています。この実験はXSumデータセットを使用しています。

図6では、DetectGPTが同じモデルでサンプルをスコアリングした場合に最も高いパフォーマンスを示しています。一方で、列の平均では、一部のモデル（GPT-Neo、GPT2）が他のモデル（GPT-J）よりも優れた「スコアラー」である可能性が示唆されています。白い値はXSum、SQuAD、WritingPromptsに対する平均AUROC（標準誤差）を示し、黒は行/列の平均を表しています。

図7では、ソースモデルのスケール全体にわたり、マスク充填モデルの容量と検出パフォーマンスの間には明確な関連性が見られます。ランダムなマスク充填ではパフォーマンスが低く、これは摂動関数がデータ多様体上にサンプルを生成する必要性を示唆しています。曲線は200のSQuADコンテキストにおけるAUROCスコアを表しています。

図8では、DetectGPTが使用する摂動の数が検出時の摂動の不一致に与える影響を示しています。左側がGPT-2、右側がGPT-Jで、DetectGPTが使用する摂動の数の変化に対するAUROCが示されています。最大100個の摂動を平均化することで、DetectGPTの信頼性が大幅に向上することが観察されています。これらの摂動はT5-largeからサンプリングされました。

結論

大きな言語モデルが進化する中で、これらは教育やジャーナリズム、芸術などの分野でますます注目を集めています。しかし、これらを利用する際には、信頼性を確かめるツールが必要であり、特に情報の正確性や文章の滑らかさが重要です。この研究では、ゼロショット機械生成テキスト検出に焦点を当て、モデルが生成したテキストを評価するために生の確率データを活用する手法が提案されました。実験の結果、既存の検出方法よりも優れた性能が示されました。また、検出にはモデルの対数確率関数や摂動関数の品質が影響することが明らかになり、これらの要素の改善が今後の研究の方向性となります。最終的には、機械生成されたメディアが潜在的にもたらす危険を軽減するための有効な手法を見つけ出すためのヒントとなることが期待されます。