大規模言語モデルと学術文献の未来、ChatGPTの活用が示す可能性と懸念

Large language models 2024年11月15日

3つの要点
✔️ 大規模言語モデルの普及とその影響：ChatGPT 3.5などの大規模言語モデルは、学術分野にも大きな影響を与えており、2023年の調査では研究者の30%が活用していると報告。
✔️ 大規模言語モデルによる生成テキストの特定とその効果：大規模言語モデル由来の特徴的な用語を分析する新たな方法により、大規模言語モデルの利用が疑われる論文を簡単に識別、特に2023年の論文で、その利用が顕著。
✔️ 大規模言語モデルの倫理と未来への影響：大規模言語モデルによるテキスト生成の未開示使用には懸念があり、「モデル崩壊」やその後の人の言語選択への影響も指摘されており、適切な開示と監視が必要。

ChatGPT "contamination": estimating the prevalence of LLMs in the scholarly literature
written by Andrew Gray
(Submitted on 25 Mar 2024)
Comments: 12 pages, 6 figures
Subjects: Digital Libraries (cs.DL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

近年、大規模言語モデルが、人間の指示に応じて、高品質なテキストを大量に自動生成し、注目されています。特に2022年末にリリースしたChatGPT 3.5は、チャットインターフェースによる使いやすさから一気に普及しました。そして、学術コミュニケーション分野においてもその使用が活発に議論されるようになりました。そして、初期の期待は、徐々に能力と限界に対するより深い理解や評価へと移っています。

2023年後半に行われた調査によると、研究者の30%が原稿作成に大規模言語モデルを活用しており、多くの出版社が使用ガイドラインを提供し始めています。Wileyなどの出版社は、著者が完全な責任を負い、使用が明開される限り、これらのツールの使用を許可しています。しかしながら、大規模言語モデルによるテキスト生成が学術文献の質に与える影響の全容を把握するのは簡単なことではありません。一部の研究では、明らかに人間とは異なるフレーズを含むことから、大規模言語モデルによって生成された論文であると特定されていますが、そのような事例はごく一部に過ぎません。

AI検出ツールの進化により、大規模言語モデルによる生成テキストの識別がある程度は可能になっていますが、物理学や数学など分野によっては、あまり活用されていません。しかしながら、最近の研究では、特に人工知能分野の学会論文の査読に大規模言語モデルが使用されている可能性も示唆されています。これらの事例は、大規模言語モデルの使用が学術コミュニケーションにおいて重要な役割を果たし始めていることを示しており、今後の展開が注目されます。

大規模言語モデルが好む用語の特定

Liangらによる研究では、大規模言語モデルによる生成テキストと関連する用語を特定することで、大規模言語モデルが活用された論文を見つけ出す新たなアプローチを提案しています。この方法は、テキスト全体の分析を必要とせず、単純にこれらの特徴的な用語を検出するだけで評価することができます。

このアプローチのために、Liangらは特徴的な12個の形容詞（Adjectives）と副詞（Adverbs）を選び出し、これらの単語を検出しています。また、比較のために、一般的に多くの論文に使用されている12個の中立的な単語（Controls）も用意しています。

Dimensionsから、Full-Text Searchで各キーワードに一致する文書の数に関するデータが取得されました。データは2024年3月18日から22日の間に収集されています。すべての「記事」に対してBlank Searchを使用したカウントがベースラインとして使用され、結果はキーワードが登場した年ごとの文書の割合として計算されています。このベースラインは、2015年の約340万から2023年には530万を超えるまで上昇しています。2024年のデータは収集されましたが、不完全なため分析されていません。各用語に一致する文書の割合は、「lucidly」（約1000記事/年）の0.02％から、「after」（約280万記事/年）の50％以上に及んでいます。中立的な単語（Controls）は副詞（Adverbs）よりもはるかに頻繁に現れ、副詞よりも一般的でした。この分析から、大規模言語モデルによる生成テキストに使用される特徴的な用語の数が顕著に増加していることが確認され、学術文献における大規模言語モデルの普及を示唆しています。ChatGPTの公開以降、出版プロセスの遅延を考慮しても、2023年に出版された論文では、この効果が現れ始めていると予想されます。

大規模言語モデルが好む用語の変化

下の3つのグラフは選択された36単語に対して年ごとの相対的な頻度変化を示しています。データは2019年から2023年までのみ表示されています。中立的な単語（Controls）の年間変化は、予想通り僅かでした。時間の経過と共に、一部の用語は徐々に増えています。例えば、「青」「赤」「黄色」の3つの色は、それぞれ2015年から2023年にかけて微増しました。一方で、他の用語は安定しているか、若干の減少を示しています。これらの変化は、学術文献における言葉遣いの好みが時間と共に徐々に変化していることを示唆しています。

形容詞の変化はもう少し複雑で、2015年から2022年にかけて安定して増加しているものや、ゆっくりと減少しているものがあります。しかし、2023年、大規模言語モデルのリリース後の年は、変化が特に顕著です。12個の形容詞（Adjectives）は2022年から2023年の間に平均33.7%増加し、「intricate」「commendable」「meticulous」といった用語が目立って増加しています。

副詞（Adverbs）も同様に、2015年から2022年にかけて減少を示したものがあれば、増加を示したものもあります。2023年には、「meticulously」が137%増加し、「methodically」と「innovatively」もそれぞれ26%増加しました。特に、「compellingly」は、2023年に向けて再び増加傾向に転じています。これらの結果から、大規模言語モデルが学術文献における言葉遣いに顕著な影響を与えていることが示唆されます。

また、用語の組み合わせがもたらす効果は、単一の用語を使用する場合よりもはるかに顕著です。例えば、2023年において、「strong」な指標とされる最初の4つの用語のうち1つ以上を含む記事は、83.5％増加しています。「medium strength」の指標を含む第2グループは、16.3％増加しています。「Weak」指標の第3グループは９.3％増加しています。最後に、組み合わされた12個の用語のグループ「Strong, medium, & weak」指標の第5グループは、年間100万以上の記事を表しており、すべての研究記事の5分の1に相当します。

大規模言語モデルによる生成テキストが特定の用語を好む傾向がある場合、それらの用語が複数回使用されることも考えられます。Dimensionsのデータベースを利用して、複数の指標用語を使用する論文を探すことで、特定のペアの結果が劇的に増加していることが明らかになりました。たとえば、「intricate」と「meticulous」の両方を含む記事は、7倍に増加し、「intricate」と「notable」の組み合わせは4倍に増加しました。

2つ以上の用語を組み合わせた場合の論文の頻度にも同様の傾向が見られ、特に2つの「weak」用語を含む第8グループでは、前年に比べて35％増加しています。このようにして、用語の組み合わせを分析することでも、大規模言語モデルがもたらす影響の規模をより正確に把握することが可能になります。

用語の組み合わせたデータを活用することによって、大規模言語モデルによって生成されたテキストを含む可能性のある論文の全体的な数を推定することができます。2014年から2022年、すなわち大規模言語モデルが普及する前には、「Strong＋Mediumの用語」を含む第4グループの記事は、年間平均1.1％の増加を示し、「全用語」を含む第5グループは2.1％の増加を示しています。これらのグループの年間最大変化率は約5％です。従って、外部要因が無ければ、これらのグループの論文数が約5％増加すると予想されます。この推定に基づき、第4グループで666,573件、第5グループで1,050,914件の論文が予測されますが、実際の数はそれぞれ85,761件と65,772件を超え、2023年に公開された全記事の1.63％と1.25％となっています。

2つ以上の用語を含む論文では、第9グループ（2つのStrong/Mediumの用語）と第10グループ（2つのStrong/Medium/Weakの用語）が2014年から2022年にかけて約10-11％の年間最大増加率を示し、2023年にはそれぞれ79.8％と45.7％の顕著な上昇を記録しています。これらのグループで11％の増加を想定すると、第9グループでは103,232件、第10グループでは230,338件の論文が予測されますが、実際の数はそれぞれ60,514件と65,735件を超え、全体の1.15％と1.25％となっています。

ただし、これらの用語はChatGPTが生成したテキストを特定するための唯一の指標ではありません。例えば、「groundbreaking」などの用語は、2023年に52％増加し、他のテストされた用語よりも高い増加率を示しました。さらに、「Outwith」は、通常スコットランド英語でのみ使用される用語ですが、ChatGPTによっても予想外に好まれることが判明しました。2023年にほぼ3倍に増加し、185％上昇しました。ここでテストされていない他の単語も同様に「ChatGPTスタイル」を示し、記事で見つかる可能性が高いことは非常に可能性が高く、数をさらに押し上げる可能性があります。

まとめ

2023年に公開された論文を分析した結果、推定で60,000以上が大規模言語モデルによって生成されたテキストを含んでいる可能性が高いことが示されています。これは必ずしも個々の論文が大規模言語モデルによって作成されたことを直接示すわけではありませんが、大規模言語モデルの使用が広範に及んでいることを示唆しています。

この論文では、この事実は、2つの大きな意味を持つとしています。1つは、大規模言語モデルが純粋に体裁を整える目的で使用されているのかどうかという問題です。より詳細な分析が必要としながらも、単純な体裁の調整以上の目的で大規模言語モデルを使用している可能性があるとしています。

もう1つは、大規模言語モデル自体への影響に関するものです。学術文献は大規模言語モデルの重要な学習資源であり、大規模言語モデルによって生成されたテキストの使用が増えれば増えるほど、「モデル崩壊」へのリスクが高まります。これは、将来の大規模言語モデルによるテキスト生成の質が低下する可能性があることを意味するとしています。

この状況に対して、出版社やレビュアーによる積極的な対応が求められるとしています。特に、大規模言語モデルによるテキスト生成の使用が適切に開示されていない場合、これを明らかにするルール整備が必要と考えられます。大規模言語モデルによって生成されたテキストを使用する著者は、その使用を適切に開示するか、またはその使用が本当に適切かどうかを再考するべきと言えます。

将来的には、この問題の規模を正確に特定するためにさらなる研究が必要とされ、大規模言語モデルの使用に関する倫理的なガイドラインの策定や、その使用が学術コミュニティに及ぼす影響の監視が重要になります。この研究は、大規模言語モデルの使用が学術コミュニケーションに及ぼす影響を深く理解し、適切な対策を講じるための第一歩となることが期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。