最新AI論文をキャッチアップ

大規模言語モデルを活用した、新しい効率的な少数ショット学習手法「Chain of Thoughts Attribute Manipulation (CoTAM)」

大規模言語モデルを活用した、新しい効率的な少数ショット学習手法「Chain of Thoughts Attribute Manipulation (CoTAM)」

Large language models

3つの要点
✔️ 大規模言語モデル主導の新しい少数ショット学習手法「CoTAM」を提案
✔️ 大規模言語モデルによって操作されたデータによって小規模モデルを効率的に学習
✔️ テキスト分類など複数のタスクでファインチューニングとインスタンスベースの結果がCoTAMの利点を実証

Generating Efficient Training Data via LLM-based Attribute Manipulation
written by Letian Peng, Yuwei Zhang, Jingbo Shang
(Submitted on 14 Jul 2023)
Comments: P
ublished on arxiv.
Subjects: Computation and Language (cs.CL)

code:

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

近年、大規模言語モデルは、少数のサンプルを提示されただけで学習する驚異的な能力を示しています。しかし、この能力を発揮するには、高価な大規模モデルが必要となり、その運用コストが大きな課題となっています。さらに、推論時には、すべてのテスト入力に対してデモンストレーションを含むコンテキストを連結する必要があり、計算負担が増加します。これに対処するために、大規模言語モデルを活用して小規模な言語モデルを開発する方法が模索されています。

これまでの研究では、少数ショットのデモンストレーションに基づいて大規模言語モデルで新しいデータを生成し、そのデータセットを用いて小規模な事前学習された言語モデルをファインチューニングすることで、効率的な少数ショット学習を実現してきました。この方法では、小規模モデルは大規模言語モデルのクエリを必要とせずにオフラインで展開でき、推論の効率が向上します。しかし、これらの方法では、生成されたデータが制御されておらず、情報量が限定され、偽の相関が発生する可能性があります。下図左のように、制御されていないデータは変動が大きく、小規模モデルが学習しにくくなります。


この論文では、より制御された効率的な生成方法を調査しています。この論文が提案するアプローチは、コンピュータビジョンにおける属性操作から着想を得ており、エンコーダの潜在空間で属性を操作して新しいインスタンスを再構築するという手法です。このアイデアは言語ドメインにも適用され、文の元の意味を保ちながらタスク特有のセマンティクス(例:感情)を操作することが提案されています。下図(再掲)に示されているように、制御された属性操作は、タスク特有の属性に沿った方向で操作し、他の属性を維持することで、効率的に正確な決定境界を見つけることができます。


言語の属性操作には、主に2つの課題があります。1つ目は、適切な属性のセットを選択することが難しいことです。文にはさまざまな属性(例:トピック、感情、意図)が含まれており、ドメインやデータセットごとに異なる可能性があります。事前定義された属性のセットを使用することは労力がかかり、限界があります。2つ目は、操作された属性で文を再構築するには、高度なセマンティクスの理解が必要です。従来の方法ではランダムマスキングに依存して文を再構築するため、生成された文の多様性と妥当性が著しく低下します。

これらの課題に対処するために、この論文ではChain-of-Thoughts(CoT)に基づく、Chain-of-Thoughts Attribute Manipulation(CoTAM)という方法を提案しています。

これは、指示調整された大規模言語モデルを利用して属性を操作し、新しい文を再構築するものです。具体的には、3つのステップで大規模言語モデルをプロンプトします。ステップ1では、文をタスク特有の属性とは独立した複数の属性に分解するように大規模言語モデルにクエリを行います。この動的属性のセットは単一の文の独自性を捉え、モデルのファインチューニングなしで全てのドメインに適合します。ステップ2では、タスク特有の属性を切り替え、他の属性を維持するためのガイドラインを出力するように大規模言語モデルに指示します。最後に、ステップ3では、ステップ2のガイドラインに基づいて文を再構築するように大規模言語モデルをプロンプトします。

これらのステップはすべて大規模言語モデルの単一のクエリで実行され、属性操作と再構築の一貫性を保証します。さらに、大規模言語モデルを使用することで、属性がユーザーに完全に透明であるため、この論文が提案するフレームワークの解釈可能性が向上します。

この論文では、4つの自然言語タスク(テキスト分類、自然言語推論、テキスト類似度、多肢選択問題解答)の少数ショット設定でCoTAMを実行しています。強力なベースラインと比較して、同じ大規模言語モデルを利用し、同じ量のデータを生成しています。また、小規模な言語モデルをファインチューニングすることで生成データの品質を評価し、さらにパラメータ効率の高い方法にも評価を拡張しています。どちらの結果も、顕著で一貫したパフォーマンスの向上を示しています。

CoTAMについて

言語モデリングは、大規模言語モデルの人間に近い言語能力の基礎となります。学習の目標は、人間のテキストで次のトークンを予測する確率を最大化することです。ここで、<sos>はシーケンスの開始トークンを指します。大規模言語モデルを非常に大規模なコーパスで学習することで、現在の大規模言語モデルは人間の指示に従って優れたゼロショット性能や自然言語処理を実現できます。大規模言語モデルに指示を出すにはプロンプトZを入力し、大規模言語モデルはそれに基づいてレスポンスWを生成します。このレスポンスはデコードされ、出力として表現されます。CoT(Chain of Thought)では、大規模言語モデルはまず簡単な前提問題を解決し、その後に指示目標をより良く達成するように指導されます。

ファインチューニングは通常、小規模なモデルを学習するために用いられます。このモデルは、テキスト埋め込み器Eと分類器Cを有しています。入力テキストWを受け取ると、埋め込み器Eは、それを表現X∈Rdにマッピングします。ここで、dは潜在空間のサイズです。次にCはXをクラス数cの確率分布P∈Rcにマッピングします。Pと正値Yとの間のクロスエントロピー損失が計算され、逆伝播によってモデルのパラメータが更新されます。

CoTAMの目的は、ファインチューニングに最小限のデータで優れたパフォーマンスを発揮する小規模モデルを可能にするために、大規模言語モデルから効率的なデータを生成することです。この手法のアイデアでは、分類対象が異なるが、他の属性が同じデータのペア(またはグループ)を生成することです。これにより、異なるペア(グループ)間での結果Pの変動が主にターゲット特徴の変動に起因することができます。これにより、ノイズの多い現実のデータに典型的に直面する複雑さが軽減されます。その結果、逆伝播によってモデルのパラメータを更新するために使用されるPと正値Yとのクロスエントロピー損失が、分類に対するターゲット特徴の影響のより正確な指標となります。

このようなデータを作成するために、主に顔の属性操作に適用される属性操作を導入しています。下図に示されているように、学習されたエンコーダは入力画像を潜在空間の表現にマッピングします。次に、その表現は潜在空間で変換され、画像に再構築されます。結果として、再構築された画像は他の属性を保持しながら、その属性に明確な変化をもたらします。したがって、初期画像と再構築された画像の違いは、切り替えられた属性に対する分類器の効率的な学習を可能にします。

大規模言語モデルの強力なテキスト操作能力(OpenAI, 2023)を活用し、属性操作をテキストに適用します。具体的には、CoTクエリを作成して入力テキストを多くの属性に分解し、それが潜在空間に近似されます。次に、CoTはタスクのターゲット属性を切り替え、大規模言語モデルに操作された文を再構築するように促します。ここでの主な課題は、属性によって潜在空間を近似する方法です。顔の属性操作における潜在空間は、一連の固定された明示的または暗示的な属性を表します。しかし、テキストには一般的な属性が顔画像のように共有されていないため、固定された属性セットは適用できません。

幸いなことに、大規模言語モデルはテキスト属性を提案する能力があり(Wang et al., 2023)、動的属性分解の要件を満たしています。これは、大規模言語モデルが提案する動的セット属性を使用して異なる入力テキストを表現できることを意味します。このようにして、大規模言語モデルを使用してCoTを構築し、顔の属性操作からインスピレーションを得ています。まず、大規模言語モデルは既知の属性(注釈ラベル)以外のいくつかの属性を提案するようにタスクされます。次に、大規模言語モデルに切り替えラベルだけが異なる文を生成する方法を考慮するように指示します。最後に、そのような文を作成して属性操作を完了するように大規模言語モデルを導きます。CoTでは、大規模言語モデルはその強力なテキスト操作能力によって、分解と再構築の両方の役割を果たしています。

CoTAMのマクロレベルの設計に従い、CoTの第1ステップは、文をさまざまな属性に分解することです。このステップでの指示は以下の通りです。

What are some other attributes of the above sentence except “<Attr>”?
上記の文の「<Attr>」以外の属性は何ですか?

ここで、<Attr>はデータセット内の既知の属性を指します。例えば、<Attr>は感情分析タスクにおける「ポジティブな感情」などです。その結果、大規模言語モデルは再構築の際に維持すべき一連の他の属性を提案します。

第2ステップでは、分解ステップからの切り替えた属性と他の属性を用いて文を再構築する方法を大規模言語モデルに提案させます。このステップは、目標を達成する方法を理解するために取り入れられており、CoT推論にとって重要です。このステップでの指示は以下の通りです。

How to write a similar sentence with these attributes and “<New Attr>”?
これらの属性と「<New Attr>」を用いて類似の文をどのように書きますか?

ここで、<New Attr>は切り替えた<Attr>、例えば<Attr>が感情:ポジティブなら感情:ネガティブになります。このステップでは、最終的に大規模言語モデルが再構築を実行するためのガイドラインが出力されます。

最後の第3ステップでは、大規模言語モデルに以下の指示を使用して、1つの属性を切り替えた文を再構築するように求めます。

Write such a sentence without any other explanation.
他の説明なしでそのような文を書いてください。

ここで、「without any other explanation/他の説明なし」という制約は、サンプリングの効率を向上させるためにのみ追加されています。以上が、CoTAMにおけるCoT実装ステップです。これにより、大規模言語モデルは効果的に文を分解し、再構築することができます。

実験

今回の実験では、6つのデータセットを使用して、CoTAMのテキスト分類やその他のタスクにおける利点を検証しまています。テキスト分類データセットとしては、SST-2(感情極性)、TweetEmo(微細な感情)、AGNEWS(トピック)が含まれています。その他のタスクデータセットには、MNLI(自然言語推論)、MRPC(意味的テキスト類似性)、CSQA(多肢選択質問応答)が含まれます。MNLIには、評価用にマッチした(MNLIm)およびマッチしていない(MNLImm)データセットが含まれています。効率的に複数回の結果を得るために、テストデータセットが公開されていない場合は、検証データセットの結果を報告しています。

CoTを用いてGPT-4にクエリを投げ、データセットを構築しています。大規模言語モデルの温度は0に設定し、高い品質と再現性を目指します。各データセットにおいて200文にCoTAMを適用し、学習データをサンプルするための小さなサブセットを作成しています。公正な比較のために、このサブセットは他のベースラインのデータ生成にも使用されます。

CoT Data Augmentation (CoTDA)は、この論文のCoTシナリオによって洗練された大規模言語モデルベースの増強戦略です。直接的に増強を求めるのではなく、大規模言語モデルにCoTに従って入力文と同じ属性を持つ文を書く方法を提案させます。CoTDAは、CoTAMにおける属性切り替えの重要性を探るための主要なベースラインです。各シードデータに対して、データセットのクラス数をNとし、0.1の温度でN-1回増強します。したがって、CoTDAはCoTAMと同じ数の新しいデータを生成し、公正な比較を実現します。

FlipDAは、完全に調整されたT5による条件生成に基づいた伝統的なラベル切り替え増強法です。具体的には、文を切り替えられたラベルと組み合わせてT5に入力します。その後、文のいくつかのスパンがランダムにマスクされ、新しいラベルに基づいてT5によって回復され、文の意味が切り替えられます。元のFlipDAは、少量の学習には適用できない大規模な教師付きデータセットを必要とするため、スパン置換指示を大規模言語モデルに送信することで大規模言語モデルベースのFlipDA(FlipDA++)ベースラインを構築します。

また、人間または大規模言語モデルによってラベル付けされたテキストを直接使用しています。人間のアノテーションには、KショットおよびNKショットの設定を含みます。Kショットは、大規模言語モデルから生成されたデータを統合する前のベースラインを表します。NKショットは、CoTAMと同じ量の学習データを持ちますが、人間のアノテーションがあるため、この手法の上限となると期待されます。しかし、CoTAMは属性操作による高いデータ品質により、この上限を超えることができます。NKショットの大規模言語モデルのアノテーションは、一般的に大量の未ラベルのドメイン内データが利用可能な場合に適用されるシンプルなベースラインを表します。デフォルトでは、Kを10に設定し、報告されるすべての結果はバイアスを排除するために10回の実行の平均です。

データの品質を評価する簡単な方法は、モデルを調整し、そのパフォーマンスを確認することです。この論文では、RoBERTa-Largeを異なるデータセットの学習者として選択しています。検証データセットが利用できない場合、モデルを32エポックで学習し、その後評価を行っています。

下表に示されているように、CoTAMは、他の大規模言語モデルベースのデータ生成方法と比較して、すべての7つのタスクで最高のファインチューニング結果を達成しています。

7つのタスクのうち6つで、CoTAMは(N-way) NKショットの人間アノテーションの想定される上限を超えています。これは、大規模言語モデルから慎重に作成されたデータが同じ数の人間のアノテーションで訓練されたモデルよりも優れたモデルを訓練する可能性があることを示しています。また、CoTAMが属性操作によってデータ効率を改善する方法であることも確認されています。

少量のテキスト分類の分野では、テキスト埋め込みがパフォーマンスと効率を向上させる強力なツールであることが証明されています。

インスタンスベースの推論では、テキスト埋め込みモデルが入力文を表現に変換します。この表現のラベルは、アノテーションされた文の表現との近接性に基づいて決定されます。この実験で、チューニング不要のアルゴリズムとして、Nearest Centroid (NC)とK-Nearest Neighbors (KNN)を利用し、3つの異なるテキスト分類データセットに適用しています。NCは、同じラベルを共有する文の平均表現として定義されるセントロイドにどれだけ近いかに応じて、入力文にラベルを割り当てます。対照的に、KNNは最も近いK個の隣接データの中で最も一般的なラベルに基づいて入力文にラベルを付けます。この実験では、Kを5に設定しています。テキストをエンコードするために、Simple Contrastive Sentence Embedding (SimCSE) モデルを、RoBERTa-Largeをバックボーンモデルとして使用しています。

下表は、インスタンスベースのアルゴリズムを使用した場合の異なるデータ生成方法のパフォーマンスを示しています。新しいテキストを生成する方法(FlipDAやCoTDAなど)とは対照的に、CoTAMは、ほとんどの構成で優れたパフォーマンスを示しています。これは、CoTAMによって作成されたデータが、テキスト埋め込みモデルの潜在空間においても改善された分布を享受していることを示唆しています。

AG-NEWSデータセットでは、インスタンスベースのアルゴリズムは、人間や大規模言語モデルによって行われたドメイン内のアノテーションを好む傾向があります。これは、特定のタスクにこれらのアルゴリズムを使用する際に、ドメイン内テキストの重要性を強調しています。

分析

CoTの各思考の重要性を確認するため、アブレーション研究を行っています。また、異なる大規模言語モデルの効果も調査し、GPT-3.5-turboを使用して実験を行っています。その結果、GPT-4の方がはるかに優れたファインチューニング結果をもたらすことがわかりました。この差はテキスト分類においてテキスト埋め込みモデルを使用することで縮小できることも示されました。

アブレーション研究の結果は下表の通りです。この研究では、CoTから各思考を取り除くとパフォーマンスが低下することが確認されています。特に、「何を」(分解)という思考が「どのように」(方法論)よりも重要であることがわかり、属性提案の優位性が示されています。ラベル切り替えにはCoTが必要であり、これを取り除くと著しいパフォーマンス低下が生じます。最後に、GPT-4はGPT-3.5-turboを上回り、特にMNLIのような複雑なタスクでは、CoTAMがより優れた言語能力を持つ大規模な大規模言語モデルを好むことが示されています。


大規模言語モデルが他の属性を一定に保ちながら単一の特徴を調整しているという仮説を確認するために、下図でCoTAMからのデータペア表現を示しています。SimCSEの高次元(1024次元)のテキスト表現を主成分分析(PCA)を使用して2次元空間に簡略化し、視覚化を行っています。

この図では、肯定的な表現と否定的な表現の間に明確な境界が描かれており、ファインチューニングとインスタンスベースの推論における提案方法の価値が強調されています。さらに、表現の切り替えの方向は一貫しており、大規模言語モデルが他の属性を安定させながら1つの属性を調整する能力を持っていることが示されています。この切り替えの方向の一貫性は、特定の特徴操作に対するLLMの行動を予測し、制御できることを示唆しています。CoTAGと比較して、CoTAMはより明確な境界を描いており、従来のデータ増強よりも効率的なデータ学習を可能にしています。

まとめ

この論文では、新しい手法「Chain of Thoughts Attribute Manipulation (CoTAM)」を提案しています。これは、大規模言語モデルから生成したデータを用いて、少量の学習データで高い性能を発揮する方法です。

CoTAMは、画像操作の手法に触発されて、特定のタスクに関連する属性を変更し、新しい文を再構築することでラベルを切り替えたデータを生成します。テストの結果、CoTAMは他の大規模言語モデルベースのテキスト生成技術よりも効果的であることが確認されました。

今後の研究では、属性操作技術を小規模な言語モデルにも適用し、スケーラビリティとアクセス可能性を高めることを目指すとしています。これにより、大規模な言語モデルに伴うリソース集約型のプロセスへの依存が減り、効率が向上することが期待されます。さらに、出力の安定性を確保し、パフォーマンス品質を保ちながらリアルタイムアプリケーションでの実用性を高めることで、また更なる改善が期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする