言語モデルの「模倣」は有用か？

ChatGPT 2024年01月31日

3つの要点
✔️ 最新研究によれば、新しく開発された言語モデルの模倣は非常に難しいことが示唆されています。微調整による改善が有効でなく、モデルの基本的な知識はあまり変わらないことが発見されました。
✔️ 中小企業や大企業が同じ利点を得ることが難しくなり、特に新しいデータやアルゴリズムを活かして能力差を生かす企業が競争上の優位性を築ける可能性があります。
✔️ 新しい手法やデータの導入が重要であり、技術的な制約にも留意することが持続的な発展に寄与するでしょう。

The False Promise of Imitating Proprietary LLMs
written by Arnav Gudibande, Eric Wallace, Charlie Snell, Xinyang Geng, Hao Liu, Pieter Abbeel, Sergey Levine, Dawn Song
(Submitted on 25 May 2023)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、安価な弱い言語モデルを改善するために、より強力なモデルからの出力をもとに微調整するという手法について述べています。具体的には、ChatGPTのような強力なモデルの出力を元に、それを模倣する新しいモデルを作成しようとしています。

論文では、さまざまな条件で様々なモデルを作り、それらを評価しています。初めに、模倣モデルが人間の指示に従う点で優れていると思われましたが、より具体的な評価を行うと、特定のタスクにおいては本物のChatGPTには及ばないことがわかりました。

研究者たちは、模倣モデルがChatGPTのスタイルを模倣できても、実際の性能には大きな差があることを指摘しています。そして、模倣は約束されたほど効果的ではなく、オープンソースモデルとクローズドモデルの間には重要な機能の違いがあることが示されました。

最終的に、論文は「モデルの模倣は簡単な解決策ではなく、より優れた基本モデルを開発することが重要だ」と結論づけています。簡単な近道ではなく、難しい課題に取り組むことが、オープンソースモデルを改善するための最も効果的なアクションだと主張しています。

導入

最近のAI技術の進展では、ChatGPT、Bard、Claudeなどの強力な言語モデルが登場し、これらは主に大手企業による有料のAPIサービスとして提供されています。同時に、オープンソースの言語モデルも進化し、商用モデルと同じ基本機能を提供しています（例：LLaMA、FLAN-T5）。研究者たちは、最も強力なモデルはオープンソース（誰でも利用可能）になるのか、それともクローズドソース（制限された利用）になるのかについて考察しています。どちらにも利点と短所があり、これは政策や企業戦略、科学研究に大きな影響を与える可能性があります。

研究では、モデルの模倣という手法に焦点を当てています。これは、強力なモデルの出力を元に新しいモデルを作成し、オープンソースモデルを改善しようとするものです。しかし、研究の結果、模倣モデルは一部のタスクでは優れているように見えても、実際には基本的な機能には大きな差があり、現在の方法ではそのギャップを埋めることが難しいことが示されています。

研究者たちは、モデルの模倣よりも、オープンソースモデルの基本機能を強化する方が効果的であると主張しています。例えば、より多様で高品質なトレーニングデータを使用するなどの方法でモデルを向上させることが重要だと指摘しています。上述しているように、研究者たちは、模倣は簡単な解決策ではなく、基本的な機能の向上に取り組む方が重要だと結論づけています。

モデル模倣

モデル模倣とは、ChatGPTなどの強力な言語モデルを模倣して、同等またはそれに匹敵する性能を持つ新しいモデルをトレーニングする手法です。これは、APIと呼ばれるインターフェースを通じて提供されるモデルをブラックボックスとして利用し、その出力を元にして同様のモデルを構築することを目指します。ユーザーはAPIを通じてモデルにクエリを送信できますが、モデルのトレーニングデータや内部構造は見ることができません。

モデル模倣の目的は様々で、学者は新しい研究プロジェクトを進めたり、企業は競合サービスを開発したり、悪意のあるユーザーは悪質な利用を加速させる可能性があります。モデル模倣には、特定のタスクに焦点を当てる「ローカルな模倣」と、幅広くモデルを模倣する「広範な模倣」の2つのアプローチがあります。

最近の研究では、特定のタスク向けにモデルを局所的に模倣する試みや、広範なモデル模倣を行う研究が増えています。これらの研究の多くは、模倣モデルがターゲットモデルとほぼ同等であると主張しています。しかし、この論文の目的は、これらの主張を厳密に評価し、さまざまな実験を通じてChatGPTを模倣するモデルをトレーニングして性能を検証することです。

模倣データセットの構築

モデル模倣には、模倣データセットの構築が欠かせません。この作業では、タスク固有の模倣と広範な模倣の2つのアプローチが考えられます。どちらの場合も、ターゲットモデルに適した入力セットを選ぶことが鍵となります。

タスク固有の模倣では、Wikipediaなどの自然な質問に基づく知識を含むデータセットを構築しました。まず、検証データセットからQA（質問と回答）のシートセットを選び、ChatGPTに対して似ているが異なるサンプルを生成しました。これらの例は一回のやりとりで構成され、NQ合成と呼ばれます。

広範な模倣では、既にWeb上で広く掲載されている大規模で多様なサンプルを活用しました。具体的には、ShareGPTウェブサイト、Human-ChatGPT比較コーパス（HC3）、およびDiscord ChatGPTボットから例を収集しました。これらのデータセットを利用することで、クエリをAPIを使って送信せずに、無料で大規模で多様な模倣データセットを構築できました。

この模倣データセットを使用して、ChatGPTを模倣するモデルの性能を検証しました。

結果

上述されている通り、模倣データセットを構築する方法として、特定のタスクに焦点を当てた模倣と、広範囲かつ多様な入力からなる模倣の2つが紹介されています。大規模な入力プールを用意することが難しい場合は、LMに小さな入力シードセットからサンプルを生成させる方法もあります。

次に、ShareGPT-MixおよびNQ合成データセットを使用してモデルをトレーニングし、人間による評価と自動評価を行いました。模倣データの量を増やし、基礎となるベースLMの機能を変更することで、モデルの模倣がどのように改善されるかを調査しました。その結果、模倣モデルの自動評価ではほとんど改善が見られず、パフォーマンスが低下することもある一方で、ベースLMのサイズを拡大することで改善が見られることが示されました。

また、模倣モデルがスタイルを学習することに優れている一方で、実際の事実に基づく精度は低いことが明らかになりました。クラウドワーカーの評価では、模倣モデルがChatGPTと同等またはそれ以上に評価される一方で、NLPベンチマークの結果では事実性が弱いことが示されました。

模倣モデルは対象モデルの「スタイル」や「ペルソナ」を模倣するという利点しか提供せず、実際の知識や機能においてはあまり改善が見られないことが指摘されました。ローカルでモデルをトレーニングする方が成功することも報告されています。

実験の結果、模倣データの量が増えてもモデルの評価が横ばいであること、一方で基本モデルのサイズを拡大するとモデルの品質が向上することが示されました。