ChatGPTは人間の生産性を高められるか？

ChatGPT 2023年07月18日

3つの要点
✔️ プロのライティングタスクに対してChatGPTを適用することで，どのような効果が得られるかを検証した研究
✔️ 444人のプロを被験者として採用した実験により，作業時間は0.8標準偏差分減少し，成果物のクオリティは0.4標準偏差分増加することが分かった
✔️ ChatGPTはスキルの低い被験者に対してより大きな効力を発揮することや，仕事への満足感や自己効力感を高める効果があることも分かった

Experimental Evidence on the Productivity Effects of Generative Artificial Intelligence
written by Shakked Noy, Whitney Zhang
(Submitted on 6 Mar 2023, last revised 11 Apr 2023)
Comments: Published on SSRN.
Subjects: artificial intelligence, generative AI, labor markets, productivity

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

導入

生成AIは，既存のタスクにおける労働者の生産性にどう影響するのか，
労働者を代替するのか，それとも労働者のスキルを補完するのか，
労働者のスキルの高低によって，得られる恩恵は異なるのか，
労働者の仕事に対する満足度に影響を与えるのか，
といった点が重要な問いとして挙げられています．
筆者らは，これらの問いに答えるため，被験者を用いた実験を行いました．

実験

プロのマーケティング担当者，助成金ライター，コンサルタント，データアナリスト，人事担当者，管理職を444人集め，ライティングタスクに取り組ませました．

タスクとしては，プレスリリース，短いレポート，分析計画，デリケートなメール作成など20~30分ほどの課題を採用します．

参加者のうち半数はtreatment groupに属し，１つ目のタスクと２つ目のタスクの間にChatGPTの使い方を教えられた後，２つ目のタスクでの使用を許可されます．一方で，残りの半数の被験者はcontrol groupに属し，ChatGPTの代わりにLaTeXエディタのOverleafの使用を許可されます．

被験者の成果物のクオリティは，文章の質・内容の質・独創性・総合点の観点から，専門家に評価してもらいます．一つの成果物に対して，３人の評価者が割り当てられています．さらに，所要時間，満足度，自己効力感，自動化に対する考え方なども調査します．

結果

以下では，被験者を用いた実験の結果を９つの項目に分けて解説していきます．

1. ChatGPTの利用

treatment groupの81%の被験者が２回目のタスクでChatGPTを使用することを選択し，感じられた有用性のスコアは，5点中4.4点でした．

2. 生産性

Fig. 1 (a)(b)に示すように，control groupに対して，treatment groupでは，２回目のタスクに要した時間が10分ほど減少し，成績は0.45標準偏差分上昇していました．

Fig. 1 (c)(d)に示すように，分布全体として所要時間が短くなり，成績が向上する方向にシフトしていることが分かります．

Fig. 2 (a)(b)は，被験者のスキルレベルに応じた，生産性の変化を示しています．

(a)は，１回目のタスクの成績を横軸とし，縦軸に２回目のタスクの成績をプロットしたもので，１回目のタスクの成績が悪かった人ほど，ChatGPTを使うことによって，成績が向上していることが分かります．

(b)は，１回目のタスクの成績を横軸とし，縦軸に２回目のタスクに要した時間をプロットしたもので，１回目のタスクの成績の如何に関わらず，ChatGPTを使うことによって所要時間が一様に短くなっていることが分かります．

また，treatment groupとcontrol groupの双方に，タスクにかける所要時間を15分で固定するように指示した場合，ChatGPTを使う方が0.39標準偏差分成績が向上しました．

3. 生産性の偏りの解消

Fig. 2 (a)で見られるように，１回目のタスクの成績が低い被験者ほど，２回目のタスクにおいてChatGPTの恩恵をより大きく受けることが分かります．これは，ChatGPTを用いることによって，成績による偏りがある程度解消されたことを意味しています．

4. 人間と機械の相補性

treatment groupのうち68%の被験者は，ChatGPTの最初の出力を一切編集せずに提出したと報告していました．また，ChatGPTの出力の生データと手を加えた回答との間で成績に差が出ることもありませんでした．これらの結果は，「ChatGPTの出力に対して人間が手を加えるとクオリティが向上する」という証拠が得られなかったことを意味しています．

5. タスクにかける時間の変化

ChatGPTを使用することで，ライティングタスクにかける時間の割合が変化しました．Fig. 3 (a)にあるように，ChatGPTを用いることで，ブレインストーミングや原稿に費やす時間が減少していることが分かります．

6. ライティングスキルの高低による差

ChatGPTの使用にお金を出したいと思うかや，得られる成績の向上度合いは，ライティングスキル（自己評価や他者評価）の高低によらず，被験者間でほぼ横ばいであることが分かりました．

7. 仕事に対する満足度と自己効力感

ChatGPTを使うことによって，仕事の満足度は0.40標準偏差分，自己効力感は0.20標準偏差分だけ，増加することが分かりました．

8. 自動化に対する考え方

被験者のほとんどは実験参加前にChatGPTを使ったことがありませんでしたが，実験に参加したことで，ChatGPTに対する考え方がどう変化したかを質問しました．質問項目は(a)自分の職業の労働者がAIにとって代わられる心配はどの程度か，(b)AIが自分の職業の生産性を向上させることに対する楽観度合いはどの程度か，(c)AIの将来の発展についてどの程度，楽観的または悲観的か，の３つです．質問の結果，Control groupに対して，treatment groupは，(a)心配が0.26標準偏差，(b)生産性向上への期待が0.39標準偏差，(c)将来への楽観度合いは0.20標準偏差分増加することが分かりました．

9. ChatGPT使用に関する追跡調査

実験参加後，2週間経った際に，再度調査を行ったところ，treatment groupの33%の被験者が実際の仕事でも使用したと答えました．具体的には，推薦状の作成や，カスタマーサービスでの対応，ブレインストーミング，検索エンジンでの利用，メールの下書きなど，様々なタスクに用いられていました．逆に，実際の業務で使用していないと答えた人の多くは，ChatGPTは特定の文脈に固有の知識を欠いているためだと答えていました．顧客に合わせて具体的に，リアルタイムの情報を扱い，会社に固有の情報を扱えるようになっていない点が問題だと言えます．