AnyGPT：画像、音声、テキストを統合する次世代のマルチモーダル大規模言語モデルの登場

Large language models 2024年03月28日

3つの要点
✔️ マルチモーダル大規模言語モデル「AnyGPT」の開発：既存の大規模言語モデルを基にしつつ、離散的な表現を用いることで、音声、テキスト、画像、音楽といった異なる情報モードを効率的に統一的に処理する能力を持つ。
✔️ マルチモーダル指示データセット「AnyInstruct-108k」の開発：モデルが複数のモダリティを効果的に処理し、理解するために必要なマルチモーダルが絡み合ったマルチターンの会話を含む大規模な指示データセットを新たに構築。
✔️ クロスモーダルタスクの成果と応用可能性：AnyGPTは、多様なクロスモーダルタスクにおいて優れたゼロショット性能を発揮し、専門モデルに匹敵する成果を達成。

AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling
written by Jun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu
(Submitted on 19 Feb 2024)
Comments: Under Review, Work in Progress
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

大規模言語モデルは、人間の言語を理解し、生成する卓越した能力を持っていますが、これまでのところその能力は主にテキスト処理に限られていました。しかし、実際の世界では、視覚、聴覚、触覚など、さまざまな感覚を通じて情報を交換するマルチモーダルな環境です。この多様性を取り入れることが、次世代のシステム開発における大きな目標となっています。具体的には、マルチモーダルエンコーダを組み込むことで、大規模言語モデルが様々な情報モードを処理し、その高度なテキスト処理機能を活用して、一貫した反応を生成できるようになることが期待されています。ただし、このアプローチはマルチモーダルの出力を生成することはできません。

Emu（Sun et al., 2023b）、SEED-LLaMA（Ge et al., 2023b）、SpeechGPT（Zhang et al., 2023a）といった先駆的な取り組みは、言語モデル内での多モーダル理解と生成を可能にすることで大きな進歩を遂げましたが、これらのモデルは画像やオーディオのような単一の非テキストのモダリティのみを統合しています。テキストと1つの追加モダリティを整合させることは比較的簡単ですが、複数のモダリティ（N ≥ 3）を単一のフレームワークで統合し、それらの間で双方向の整合性を達成することはより大きな挑戦を伴います。

この課題に対処するため、この論文では「AnyGPT」を開発しています。これは、画像や音声などの生データを離散的な意味トークンに変換するマルチモーダルトークナイザーを備えた、新しいタイプのマルチモーダル型の大規模言語モデルです。このアプローチにより、大規模言語モデルは認識、理解、推論、生成を意味レベルで統一的に行うことができます。さらに、このモデルは、マルチモーダルの入力と出力の任意の組み合わせを扱えるように設計されており、実験結果は専門モデルに匹敵するゼロショットの性能を示しています。

また、この論文では、テキストを中心としたマルチモーダルのアライメントデータセットを新たに構築しています。自然言語が最も洗練された意味表現のモーダルであり、ほとんどのマルチモーダルのデータセットに存在するため、テキストを橋渡しとして使用し、すべてのモダリティ間の相互連携を達成することを目指しています。この取り組みを通じて、AnyGPTはマルチモーダルなダイアログを容易にし、複数のモダリティを離散的表現を用いて統一することの実現可能性を示しています。

この論文は、多様なモダリティを理解し、生成できる新しいマルチモーダル型の大規模言語モデル「AnyGPT」の提案、マルチモーダルが絡み合った指示に従うデータセット「AnyInstruct-108k」の開発、そして離散的表現を用いて複数のモダリティを効果的に統一できることの実証にあります。これらの進展は、次世代のマルチモーダル型のシステム開発における新たな可能性を開きます。

マルチモーダル大規模言語モデル「AnyGPT」

AnyGPTでは、画像、音声、音楽の各モダリティに対して、それぞれ専用のトークナイザーを導入し、AnyGPTの多様な応用を可能にする基盤技術を構築しています。

まず、画像をトークン化するために、SEEDトークナイザーを採用しています。このトークナイザーは、224×224のRGB画像を入力として受け取り、ViTエンコーダーが画像を16×16のパッチにエンコードし、次にCausal Q-Formerがパッチの特徴を32の因果関係のある埋め込みに変換します。8192エントリーを持つVQコードブックを使用してこれらの埋め込みを量子化し、MLPを介して視覚コードにデコードします。このプロセスは、最終的にUNetデコーダーによって元の画像へと復元されます。この高度なトークナイザーは、画像を精密にトークン化し、unCLIP Stable Diffusionの潜在空間と整合させることができます。

次に、音声データをトークン化するために、エンコーダー-デコーダーアーキテクチャであるSpeechTokenizerを使用しています。このシステムは、階層的量子化器を用いてオーディオシーケンスを離散化マトリックスに圧縮し、セマンティックの情報と言語外の情報の両方を捉えます。CommonvoiceとLibrispeechのデータセットで事前学習されたこのトークナイザーは、音声のセマンティックな情報とそれ以外の情報を効果的にモデル化し、音声クローニングモデルと連携してリアルな音声を生成します。

そして、音楽データに特化したトークナイザーとして、Encodecを採用しています。この畳み込みオートエンコーダーは、残差ベクトル量子化を利用して音楽トラックを潜在空間に量子化します。2万曲以上で事前学習されたEncodecは、音楽データを高解像度で処理し、音楽のセマンティックな要素を捉えるために4つの量子化器を使用します。このトークナイザーは、音楽クリップの予測において言語モデルと連携し、音楽の構成と生成に革命をもたらします。

AnyGPTは、テキストだけでなく画像や音声などのマルチモーダルなデータを理解し生成できるように、言語モデルの語彙を大幅に拡張しました。この新しいアプローチでは、各モダリティ固有のトークンを導入し、それに伴い、モデルの埋め込みと予測レイヤーも拡大しました。これらの新たに追加されたパラメータは最初にランダムに初期化され、続いて、すべてのモダリティのトークンを統合して新しい語彙を形成し、共有表現空間での整合性を目指して訓練されます。この方法により、モデルは異なる種類のデータ間での知識と情報をシームレスに統合できるようになります。

マルチモーダルデータを効果的に扱うために、AnyGPTは各モダリティ専用のトークナイザーを装備し、これを使ってデータを離散的なトークンシーケンスに変換します。この変換後のデータは、次のトークンを予測する損失関数を通じてモデルを学習するために使用されます。この一貫した学習手法により、モデルはテキスト、画像、音声など、あらゆる種類のデータを理解し、生成する能力を獲得します。バックボーンとしては、大規模テキストトークンデータセットで事前学習されたLLaMA-2 7Bモデルを採用しており、新しい語彙に合わせて微調整されています。

また、高解像度の画像や高品質の音声データの生成は、非常に多くの情報を処理する必要があるため、特に挑戦的です。長大なシーケンスを効率的に扱うために、AnyGPTは二段階のフレームワークを採用しました。このアプローチでは、まず意味レベルでの情報処理を行い、次にその情報を使用して高忠実度のマルチモーダルコンテンツを生成します。

さらに、視覚コンテンツには、拡散モデルを使用してSEEDトークンから高品質の画像を生成しています。音声に関しては、非自己回帰型のSoundStormモデルを採用し、意味トークンから音響トークンを生成し、これを生のオーディオデータに変換します。このプロセスは、たった3秒の音声プロンプトから任意の話者の声を再現することが可能です。音楽生成では、Encodecトークンを使用して人間の知覚を超える詳細をフィルタリングし、高品質のオーディオデータへと再構築しています。

このように、AnyGPTは、複雑なマルチモーダルデータを扱い、高品質なコンテンツを生成するための革新的な手法を採用しています。これらの技術により、テキスト、画像、音声の各モダリティ間での深い理解と生成が可能になっています。

事前学習データセット「AnyInstruct-108k」

AnyGPTの事前学習データに利用されたデータセットの分布は下図のようになっています。トークン数によってセグメント化されたています。内側のセクションはモダリティを示し、中央のセクションはデータ型の詳細を示し、外側のセクションは個々のデータセットを示しています。

多様な情報モダリティ間でのシームレスな生成を実現するため、異なるモダリティを精巧にリンクさせたテキスト中心のバイモーダルデータセットを開発しています。テキストをキーとして、言語モデルを通じて画像や音声などの異なるモダリティを統合し、これら全てを相互に調和させることを目指しています。

異なるモダリティのデータを比較しやすくするため、トークン数を基にした量化方法を適用しています。このアプローチにより、データの種類に関わらず、一貫した基準でデータ量を比較することが可能になります。

画像＆テキストでは、LAION-2B、LAION-COCO、LAION-Aesthetics、JourneyDBから収集した画像テキストペアを活用しました。これらのデータセットは、画像とテキストの品質向上のために厳選され、結果として高品質なコーパスを構築。さらに、画像生成の質を高めるために、LAION-AestheticsのサブセットとJourneyDBの合成データセットを追加しました。また、モデルが異なるモードで効果的に機能するよう、画像とテキストが交差するデータも取り入れています。

音声＆テキストでは、英語の自動音声認識（ASR）用に、Gigaspeech、Common Voice、多言語LibriSpeech（MLS）といった大規模データセットを集めました。これらはオンラインプラットフォーム、クラウドソーシング、オーディオブックから収集された57,000時間に及ぶ音声テキストペアで、幅広い話者、領域、環境をカバーしています。

音楽＆テキストでは、インターネットから100万以上の音楽ビデオを収集し、Spotify APIを通じて曲とビデオのタイトルをマッチングしました。収集したメタデータには、ビデオタイトル、説明、キーワード、プレイリスト名、Spotifyの歌詞が含まれ、これをJSON形式でGPT-4に供給しました。GPT-4は、このノイズの多いメタデータから重要な情報を抽出し、簡潔な文にまとめることで、高品質なテキストキャプションを生成します。これにより、大量の音楽オーディオに対して効果的に高品質なキャプションを提供し、データセット内の誤情報を最小限に抑えることができます。

また、効果的な人間と機械のインタラクションでは、さまざまな交錯するモダリティで情報の交換が許されるべきです。しかし、会話におけるモダリティの数が増加することは、データ収集プロセスを大幅に複雑化します。現在では2つ以上のモダリティを含む大規模な指示データセットは存在しません。これは、複数の絡み合ったモダリティを持つ対話を管理できる包括的なモデルの開発において大きな制約となっています。

この論文では、この制約を克服するために、最新のデータ合成研究（Wang et al., 2022; Wu et al., 2023）から着想を得て、108kのマルチターン会話サンプルで構成されるデータセットを生成モデルを用いて構築しています。慎重なキュレーションにより、各合成会話はテキスト、音声、画像、音楽といった複数のモダリティを交錯する形で統合しています。データ合成プロセスは、下図のように行われています。

このようにして、異なるモダリティを橋渡しする事前学習データセットを構築し、多様な情報を統合する新たな可能性を開拓しています。

実験

この論文では、事前学習されたベースのAnyGPTの基本的な性能を評価し、すべてのモダリティにわたるマルチモーダル理解と生成のタスクをカバーしています。この評価は、事前学習プロセス中に異なるモダリティ間の整合性をテストすることを目的としています。具体的には、各モダリティに対して、テキストからXへおよびXからテキストへのタスクをテストしています。ここで、Xは画像、音楽、音声をが当てはまります。

実世界のシナリオを模倣するため、すべての評価はゼロショットで行われています。この厳しい評価設定は、モデルに未知のテスト分布に一般化することを要求し、異なるモダリティを通じたAnyGPTの汎用的な能力を示します。評価結果は、汎用的なマルチモーダル言語モデルとしてのAnyGPTが、様々なマルチモーダル理解および生成のタスクにおいて優れた性能を達成することを示しています。

画像キャプショニングのタスクにおいて、AnyGPTの画像理解能力を評価しています。下表は、その比較結果です。MS-COCO 2014キャプショニングベンチマーク（Lin et al., 2014）を利用し、既存研究（Li et al., 2023; Tang et al., 2023b）に従ってKarpathy分割したテストセットを採用しています。

テキストから画像への画像生成タスクの結果は、下表に示されています。既存研究（Koh et al., 2023; Ge et al., 2023b; Sun et al., 2023a）との一貫性を保つために、MS-COCO検証セットからランダムに3万枚の画像を選択し、評価基準としてCLIPscoreを使用しています。この指標は、生成された画像とその対応する実際の画像のキャプションとの間の類似性スコアを、CLIP-ViTL（Radford et al., 2021）に基づいて計算しています。

また、LibriSpeechデータセット（Panayotov et al., 2015）のtest-cleanサブセットにおけるWord Error Rate（WER）を計算することで、自動音声認識（ASR）タスクにおけるAnyGPTの性能を評価しています。Wav2vec 2.0とWhisper Large V2をベースラインとして使用しています。Wav2vec 2.0は60,000時間の音声で事前学習され、LibriSpeechでファインチューニングされる一方、Whisper Large V2はゼロショット設定で評価されますが、680,000時間の音声で学習されています。結果は下表に示されています。

さらに、VCTKデータセットでゼロショットのText-to-Speech（TTS）評価しています。結果は下表のとおりです。スピーカーの類似性とWord Error Rate（WER）でTTSシステムを評価しています。ここでのWERは音声品質に焦点を当てています。

音楽理解および生成タスクにおいて、MusicCapsベンチマーク（Agostinelli et al., 2023）を使用してAnyGPTの性能を評価しています。客観的な指標としてCLAPscore（Wu et al., 2022; Huang et al., 2023）を使用します。これは生成された音楽とテキスト記述の間の類似性を測定しています。

音楽キャプショニングの評価において、既存の客観的指標が音楽キャプショニングタスクでのパフォーマンスを表現するのに限界があることがわかりました。音楽の多様性と主観性は、個々の人々から異なる意見を引き出します。特定の音楽ジャンルや楽器のみが、容易に認識できる独特の特徴を持っています。最近の研究（Gardner et al., 2023）ではこの問題が探究されていますが、対処するには依然として難しい問題とされています。客観的な評価を保証するために、<音楽, 実際のキャプション>のペアと<音楽, 生成されたキャプション>のペアのCLAPscoreを計算し比較しています。これらのスコアはテストセット全体で平均化されています。

まとめ

この論文では、音声、テキスト、画像、音楽といった多様なモダリティを一貫して処理できる、新たなマルチモーダルの大規模言語モデル「AnyGPT」を紹介しています。AnyGPTの核心は、既存の大規模言語モデルの枠組みや学習手法を変えることなく、新しいモダリティを難なく取り入れることができる離散的な表現の利用にあります。これは、まるで新しい言語を学ぶかのような柔軟性をモデルに与えます。

また、AnyGPTが様々なモダリティを巧みに扱えるようにするため、マルチモーダルの指示データセット「AnyInstruct-108k」を開発しています。これは、複数のモダリティが絡み合うマルチターンの会話を含む、画期的な大規模データセットです。

さらに、実験結果から、AnyGPTは多様なクロスモーダルタスクにおいて顕著な成果を達成しており、離散表現が異なるモダリティを効率的に、かつ便利に一つの言語モデル内で統一する力を持っていることが明らかになりました。AnyGPTの導入により、音声、画像、テキスト、音楽といった多様な情報源を統合する新しい道が開かれ、これまで以上にリッチなマルチモーダルのアプリケーションの開発が期待されます。

この記事に関するカテゴリー

Large language models

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。