科学論文におけるChatGPTの活用と影響、Binocularsによる分析
3つの要点
✔️ ChatGPTのリリース後、科学論文における大規模言語モデルの利用が急増
✔️ Binocularsスコアを用いた分析で、生成テキストの検出と引用数の増加を確認
✔️ 分野や国ごとの利用の偏りとコンテンツタイプに対する影響の多様性を明示
Have AI-Generated Texts from LLM Infiltrated the Realm of Scientific Writing? A Large-Scale Analysis of Preprint Platforms
written by Huzi Cheng, Bin Sheng, Aaron Lee, Varun Chaudary, Atanas G. Atanasov, Nan Liu, Yue Qiu, Tien Yin Wong, Yih-Chung Tham, Yingfeng Zheng
(Submitted on 30 Mrr 2024)
Comments: Published on bioRxiv.
Subjects: Scientific Communication and Education
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
AI技術の進歩によって、デジタルコンテンツの制作と消費の状況が一変しています。特に注目すべきは、大規模言語モデルをはじめとする生成AIの急速な進化です。2022年に登場したChatGPTは、GPT-3に基づく大規模言語モデルで、人間の文章に非常に近い品質のテキストを生成することができます。これらのモデルは、用途や文調、文脈を考慮したテキストを自在に生成することができるため、コンテンツ制作で広く利用されています。
しかし一方で、この普及に伴い、大規模言語モデルで生成されたコンテンツの信頼性、独創性、品質に関する懸念が提起されています。そして、これらの技術が大量のコンテンツを迅速に生成することによる情報過多の問題も議論されています。
科学界においても、大規模言語モデルの普及に伴い、科学論文での活用が進むことは自然の流れです。科学論文は、正確性、明確さ、簡潔さに対する厳格な基準が設けられており、大規模言語モデルがこのようなタスクを支援することが期待されています。しかし、科学論文には、人間の探究心、洞察力、観察結果や考察が不可欠ですが、現在の大規模言語モデルでは、これを実現することは難しいのが実状です。科学論文は、まさに、大規模言語モデルとの活用において、岐路に立たされていると言えます。
この論文では、大規模言語モデルが科学文献、特にプレプリント論文の分野でどの程度活用されているのか、現状を把握するための調査を行なっています。大規模なオープンデータセットと、Binoculars LLM-detectorなどの高度な検出ツールを活用し、科学論文における大規模言語モデルの影響の全体像を整理しています。この論文での調査は様々な分野にわたっており、大規模言語モデルによって生成されたコンテンツの急増、検索トレンド、分野特有の影響、著者の人口統計学的特性などの相関関係を明らかにしています。
また、大規模言語モデルの活用と、論文の影響力の関係も調査し、大規模言語モデルの活用が引用数と正の相関を持つことも示しています。この論文では、大規模言語モデルが、科学論文の慣習をどのように変えていっているのかについて、洞察を提供し、学術研究における大規模言語モデルの安全な活用に関する提言をしています。
手法とデータセット
論文の発表には時間がかかり、1年以上かかることもあります。一方、ChatGPTのような大規模言語モデルベースのテキスト生成ツールは、2022年末から急速に普及しています。短期間では、正式に発行された文献における規模言語モデルの影響を分析するのは難しいため、この論文では、プレプリントのプラットフォームに投稿された論文を対象に分析を行なっています。
プレプリントプラットフォームは、多くの著者がジャーナルに論文を提出する前にプレプリント版をアップロードするため、最新の研究成果をいち早く知ることができます。また、短期間でも多くの論文が提出されるため、詳細な分析をすることができます。さらに、プレプリントプラットフォームは大量アクセスをすることができ、大規模な分析も可能です。
この論文では、arXiv、bioRxiv、medRxivの3つの主要なプレプリントプラットフォームからPDF形式の論文を収集しています。
これらは、数学や工学から生物学や医学までの幅広い領域を網羅しています。すべてのプラットフォームから、2022年1月1日から2024年3月1日までの原稿をダウンロードしています。この期間は、2022年12月のChatGPTリリースの前後1年を含んでいます。
各プラットフォームから最大1000件/月のランダムな論文をAPIを使用してダウンロードしています。クリーニングと前処理の後、無効な文書を除去し、最終的に45,129件の論文を分析に使用しています。これらの論文の領域は、生物科学、コンピュータ科学、経済学・金融、工学、環境科学、数学、医学、神経科学、物理科学に分類されます。また、ChatGPTの影響と使用状況を調査するために、Googleトレンドのデータを使用しています。キーワード「ChatGPT」の全世界のGoogleトレンドのデータを日次および週次で収集し、分析しています。
実験結果
従来のLSTMやGRUによって生成されたテキストは簡単に見分けることができ、不自然なものも多かったため、実用段階には、至っていませんでした。しかし、トランスフォーマーをベースとしたモデルが報告され、大規模言語モデルが構築されて以降、生成されるテキストは、人が作成するものと見分けがつかず、その検出は格段に難しくなりました。特に、2022年末にChatGPTがリリースされると、検出はさらに困難になりました。このような状況において、大規模言語モデルによって生成されたテキストを見分けるためには、隠れた統計的パターンを利用した検出器が必要になります。これらの検出器は特定の大規模言語モデルの知識を必要とせず、学習はほとんど必要ありません。
一般的な方法として、与えられたテキストのパープレキシティを分析する方法があります。この方法は、大規模言語モデルが生成したテキストはパープレキシティが一般的に低くなるという考えに基づくものです。しかし、これは大規模言語モデルのみで生成したテキストに対してのみ有効です。科学論文の場合、著者は論文全体を大規模言語モデルで生成するのではなく、内容の修正に大規模言語モデルを利用することが多いと考えられます。
この問題に特化したツールとして、Binocularsスコアが開発されています。Binocularsスコアが高い場合、そのテキストは人間によって生成された可能性が高く、スコアが一定の閾値より低い場合は大規模言語モデルによって生成されたテキストを含むコンテンツである可能性が高いことを示します。Binocularsは1つではなく、2つの大規模言語モデルを使用することで、プロンプトが混在している可能性のあるテキストを検出することができます。この特徴により、Binocularsは、Ghostbuster、GPTZero2、DetectGPTなどの他の大規模言語モデルの検出器に比べて多くのベンチマークテストで優れた性能を示しています。この論文では、このBinocularsを主要な検出器として使用しています。
論文は、Binoculars検出器の単一パスとしては長いため、各論文を同じサイズのチャンクに分割し、各チャンクをBinoculars検出器に入力しています。論文内の大規模言語モデルの痕跡は、対応するBinocularsスコアのシーケンスとなります。この論文では、このシーケンスの平均、分散、最小値が生成されたテキストを検出するために重要であることがわかります。データセット内のすべての論文について、論文単位でBinocularsスコアの平均、分散、最小を計算し、これらの3つのスコアの30日間の移動平均を使用して、2022年から2024年までの3つのBinocularsスコアを計算しています。これは、論文の発表には比較的長い時間がかかるため、ChatGPTの現在の使用状況が、提出される論文に反映されるまでに時間がかかると仮定しています。
次に、これら3つの指標をキーワード「ChatGPT」の週次Googleトレンドと比較しています。これは、執筆における大規模言語モデルの使用状況と人気を間接的に測定するために使用しています。下図の灰色の線が示すように、ChatGPTの検索トレンドは2022年11月30日のリリース後に上昇していることがわかります。
このトレンドから3つのBinocularsのスコアがトレンドと相関していることがわかります。Binocularsスコアの平均と最小はChatGPTリリース前の方が高く、分散はリリース後に高くなっています。これは、リリース後に人間とChatGPTが生成したコンテンツの相違を示唆しており、分散と最小値の増加がその証拠になっていると言えます。Binocularsスコアの平均の減少により、ChatGPTが生成したテキストを含むコンテンツが全体的に増加していることが示されています。
さらに、この関係がより細かい時間でも成り立つかどうかを調べています。同様に、日次単位のGoogleトレンドを同じ解像度でBinocularsスコアと比較しています。ただし、ChatGPTリリース後の期間に限定しています。上図の結果は、この相関が持続し、週次単位の分析と一致していることを示しています。相関の有意性を詳しく見ると、Binocularsスコアの平均と比較して、最小値と分散がより支配的であることが明らかになっています。
次に、ドメインごとのChatGPTの活用の違いを調査しています。下図の結果をもとに、ChatGPTや他の大規模言語モデルの活用が、異なるドメインでどのように異なるかを検討しています。これにはいくつかの要因が影響している可能性があります。例えば、大規模言語モデルの学習に使用されるデータの分布に偏りであるため、さまざまなドメインでのパフォーマンスに差が生じることが考えられます。数学のように抽象的な記述や高度に文脈化された記号を多用するドメインでは、ChatGPTの直接利用が難しくなるかもしれません。また、最新のデジタルツールへの依存度や親和性も、大規模言語モデルの利用に影響を与えることが考えられます。例えば、コンピュータサイエンスの分野では、ChatGPTをワークフローに統合することに対してよりオープンである可能性があります。
実験では、すべての論文をいくつかのドメインに分類し、ChatGPTリリース前後のBinocularsスコアの平均、最小の分布を分析しています。
また下図によると、生物科学、コンピュータサイエンス、工学などのドメインでは、ChatGPTリリース後に最小Binoculars値が大幅に低下しており、ChatGPTが多く使用されていることを示唆しています。特に、工学およびコンピュータサイエンスの分野では、Binocularsスコアの平均も大幅に低下しました。この傾向は、ChatGPTの学習データにおけるこれらのドメインのデータの豊富さに起因するかもしれません。他のすべてのドメインでも、Binocularsスコアの平均または最小が低下しており、ChatGPTが広く利用されていることが確認されています。
また、国・言語別のChatGPTの活用の違いについても調査しています。ChatGPTの使用に影響を与えるもう一つの重要な要因は、論文の著者が話す母国語と考えられます。多くの論文が英語で発行されるため、英語を第二言語とする著者がChatGPTに頼る可能性が高いと考えられます。しかし、著者の国籍や母国語のデータが全て揃っていないため、これを直接分析するのは困難です。そこで、各プラットフォームごとに代替策を考案し、データセット内の各原稿に国/地域を割り当てています。分析には、提出数が最も多い8か国を選び、それ以外の国/地域は「その他」としています。
下図と同様に、ChatGPTリリース前後のBinocularsスコアの平均および最小の分布を分析しています。
また、下図によると、ほぼすべての国でBinocularsスコアの最小が低下し、Binocularsスコアの平均の低下も見られましたが、顕著ではありません。特に中国、イタリア、インドなどの国では、ChatGPTリリース後のBinocularsスコアの平均および最小の差が大きいことがわかります。これは、これらの国の母国語が英語を含まない事実に関連していると考えられます。
この仮説を検証するために、各国/地域を公用語で分類しています。結果は、ChatGPTリリース後にすべての国/地域でBinocularsスコアが低下しているものの、英語が公用語の一つである国/地域では、平均および最小Binoculars値の全体的なレベルが依然として高いことを示しています。この発見は、非ネイティブの英語話者が書いたテキストがLLM生成と認識されやすいといういくつかの以前の研究と一致しています。
これらの実験結果は、ChatGPTの利用がドメインや国・言語により異なることを示しています。特に、特定のドメインや英語を第二言語とする著者において、その利用が顕著であることが分かりました。
また、コンテンツタイプによる影響も調査しています。大規模言語モデルによって生成されたテキストがコンテンツタイプにどのような影響を与えるかを検討しています。直感的には、既存の情報を多く含む内容や過去の発見を紹介する内容は、大規模言語モデルの影響を受けやすいと考えられます。一方、具体的な内容や新しい発見に関するものは、大規模言語モデルによる生成には適さない可能性があります。これを検証するために、NLIベースのゼロショットのテキスト分類モデルを使用し、各論文を10個のコンテンツタイプ(現象の説明、仮説の立案、方法論の説明、データの提示、論理的推論、結果の解釈、文献レビュー、比較分析、結論の要約、将来の研究提案)に分類しています。
まず、下図左では、Binocularsスコアが高いテキストとBinocularsスコアが低いテキストの間で、コンテンツタイプの分布が安定しているかを確認しています。データセット全体の平均スコア(1.02)を基準に、テキストを2つのセットに分けています。その結果、文献レビューは、Binocularsスコアが非常に低くなり、新しい情報を含むデータ提示や現象の説明は最高のスコアを持っていることが分かりました。また、高スコアと低スコアのコレクションにおけるコンテンツタイプの分布は比較的安定しており、割合の変動は小さくなっています。
次に、ChatGPTリリース前後の各コンテンツタイプのBinocularsスコアの違いを調査しています。上図右に見られるように、ほとんどのコンテンツタイプでスコアの低下が見られましたが、文献レビューでは顕著な低下はありません。仮説の立案、結論の要約、現象の説明、将来の研究提案など、新しいと見なされるコンテンツで大きなスコアの低下が見られています。
最後に、Binocularsスコアと論文の影響力の関係を調査しています。大規模言語モデルの使用によってコンテンツの質が「汚染」される可能性についても調査しています。この評価は主観的であるため、論文の影響力の指標として引用数を利用しています。Semantic ScholarのAPIを使用して、データセット内のほぼすべての論文の引用数を収集し、ChatGPTリリース前後のBinocularsスコアの平均値と引用数の相関を比較しています。その結果、ChatGPTリリース前は相関が有意ではありませんでした(0.004214、p=0.56)が、リリース後は相関が-0.018911に変わり、p値は0.002566となっています。この相関の変化は有意であり(p値=0.007994)、ChatGPTを使用するほど(Binocularsスコアの平均値が低いほど)、引用数が増える可能性が高いことを示唆しています。
これらの実験結果は、大規模言語モデルによって生成されたテキストの影響がコンテンツタイプや論文の影響力にどのように現れるかを示しています。特に、ChatGPTのリリース後、引用数が増加する傾向が確認されています。
まとめ
過去2年間にわたり、3つのプレプリントのプラットフォーム(arXiv、bioRxiv、medRxiv)に投稿された約45,000件の論文を分析した結果、2022年末のChatGPTのリリース後に科学論文における大規模言語モデルの活用が大幅に増加したことが明らかになっています。
各論文のBinocularsスコアの統計を調査することで、2022年11月30日以降、Binocularsスコアの平均が大幅に低下し、この低下が「ChatGPT」というキーワードのGoogleトレンドデータと相関していることがわかりました。これは、科学論文に大規模言語モデルが生成したテキストが広く存在していることを示していると言えます。さらに、様々な分野や国における大規模言語モデルの使用の偏りも明らかになりました。特に、コンピュータサイエンスや工学の分野では大規模言語モデルの使用率が高く、英語が公用語でない国でも同様の傾向が見られています。コンテンツタイプに対する大規模言語モデルの影響も偏りがあり、新しい情報を含むテキストは、文献レビューに比べてBinocularsスコアの低下が大きいことが示されています。
また、Binocularsスコアの平均と引用数の月次の相関の推移を分析したところ、予想外の傾向の逆転が見られました。ChatGPTリリース前は相関が弱く、無視できる程度でしたが、リリース後は相関が負の方向に転じ、大規模言語モデルによって生成されたテキストを含む論文の方が引用される可能性が高いことが示されています。
しかしながら、今回の取り組みには、いくつかの課題があります。まず、テキストが大規模言語モデルによって生成されたかどうかを完全に特定することは不可能です。Binocularsスコアは、大規模言語モデルによって生成されたテキストに共通する統計パターンに依存しているため、不適切な使用などによってその信頼性が低下する可能性があります。また、ゼロショットのテキスト分類モデルなど、他の統計ツールも同様のエラーを犯すことがあります。次に、多くの著者がプレプリントのプラットフォームに論文をアップロードする傾向にあるものの、これらのプラットフォームは、すべての科学論文を網羅しているわけではなく、分野によってプレプリントを利用する傾向も異なっています。そのため、使用したデータセットは全体像を示すものではありません。さらに、arXivなどのプラットフォームの制約により、著者の国/地域/母国語の情報に直接アクセスすることはできません。国籍の推定サービスの導入により、特定の論文でエラーが発生する可能性があります。また、前述のように、論文は異なる言語を話す人々の寄稿を含むことがあり、国/地域の分析が不正確になる可能性があります。
しかしながら、これらの課題はあるものの、この論文は、現在の科学論文の執筆における大規模言語モデルの影響を定量的かつ大規模に明らかにする初めての試みです。
この記事に関するカテゴリー