PALO:世界人口の3分の2をカバーする10言語対応の革新的な多言語大規模マルチモーダルモデル
3つの要点
✔️ 多言語大規模マルチモーダルモデル「PALO」の開発:世界人口の65%をカバーする10の主要言語に対応する初のオープンソースの多言語大規模マルチモーダルモデル「PALO」を開発。主にこれまでマルチモーダルモデルで適切に表現されてこなかった言語群を対象。
✔️ 広範なインストラクションチューニングデータセットの構築:10の言語にわたる高品質な多言語ビジョン言語指示データセットを作成。複数言語にまたがる言語処理と生成の精度を向上させるために不可欠であり、最先端の大規模言語モデルの翻訳を基にしたデータセット。
✔️ 大規模マルチモーダルモデルの多言語性能の向上とスケーラビリティの実証:1.7B、7B、13Bパラメーターという3つの異なるスケールで最先端の大規模マルチモーダルモデルの多言語性能を向上。低リソース言語での理解とコンテンツ生成における著しい改善を達成し、高リソース言語での高性能を維持しながら、同時に多様な言語タスクにおける性能の向上を実証。
PALO: A Polyglot Large Multimodal Model for 5B People
written by Muhammad Maaz, Hanoona Rasheed, Abdelrahman Shaker, Salman Khan, Hisham Cholakal, Rao M. Anwer, Tim Baldwin, Michael Felsberg, Fahad S. Khan
(Submitted on 22 Feb 2024 (v1), last revised 5 Mar 2024 (this version, v2))
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
生成AIの飛躍的進化は、視覚と言語のタスクをシームレスに結びつける大規模マルチモーダルモデルの登場を促し、この分野における革新的な進展をもたらしました。しかし、LLaVAやminiGPT4のような先駆的な試みは、視覚的入力からの効果的なテキスト応答生成において顕著な成果を上げつつも、その焦点は主に英語に限定されており、非英語話者向けのマルチモーダル理解においては、十分な取り組みがなされていません。この結果、現在の大規模マルチモーダルモデルは、中国語やヒンディー語、スペイン語、フランス語など、世界人口の大半を占める言語群の言語的多様性を見落としがちです。
この論文では、この不均衡に着目し、これまでマルチモーダルモデルで適切に表現されてこなかった言語に焦点を当て、世界人口の65%をカバーする10の主要言語を包含する最初のオープンソースの多言語の大規模マルチモーダルモデル「PALO」を開発しています。
この取り組みは、英語以外の言語で高品質の多言語マルチモーダルデータが不足しているという課題に取り組んでいます。特に、ヒンディー語、アラビア語、ベンガル語、ウルドゥー語などはデータが限られています。この論文では、各対象言語に対して最先端の大規模言語モデルによって生成された翻訳の慎重な分析と改良を通じて、これらの課題に取り組んでいます。人間の介入による翻訳の精度の確認と修正を経て、言語間での精密さと繊細さを保証する高品質な多言語データセットを作成しています。
さらに、高品質な多言語ビジョン言語指示データセットと最新の大規模マルチモーダルモデリング技術の進歩を駆使し、10の異なる言語で質問に対して同時に回答できる統一モデル「PALO」を開発しています。このモデルは、低リソース言語における大幅な性能向上を実現しつつ、高リソース言語のパフォーマンスを維持、またはさらに向上させることができます。
PALO: 多言語対応の大規模マルチモーダルモデル
ここでは、世界人口の約3分の2をカバーする10の主要言語に対応し、グローバルなアクセスを目指す「PALO(Polyglot Large Multimodal Model:多言語大規模マルチモーダルモデル)」を紹介しています。このモデルは、異なる計算環境下でもその多用途性を発揮するよう設計されており、大規模モデル(7/13B)ではLLaVAを、軽量モデル(1.7B)ではMobileVLMをベースにしています。
PALOは、ビジョンエンコーダと言語モデルをシームレスに統合し、入力された画像とユーザーのテキストクエリに基づいて、正確な自然言語応答を生成しています。このモデルは、高度なビジョンエンコーダCLIP ViT-L/14を使用し、ビジョントークンを言語モデルが理解しやすい形に変換するためのプロジェクターを介して処理します。特に注目すべきは、モバイルモデル用に設計された軽量ダウンサンプルプロジェクター(LDP)で、これにより学習および推論時間が大幅に削減され、効率的なモデル運用が可能になっています。
PALOは10言語での学習を実施しており、豊富なマルチモーダルインストラクションチューニングデータセットを活用しています。これにより、モデルはより豊かなコンテキストの中で、より挑戦的な例題を通じて学習することができ、多様な言語セットにわたる理解と応答生成の能力を大幅に向上させています。
大規模モデルでは、Vicunaという大規模言語モデルを、モバイルモデルではMobileLLaMAをそれぞれ使用しており、これらのモデルは共に最新のデータセットであるShareGPTをはじめとする多様なソースから収集された大量のテキストデータで訓練または微調整されています。下図は、PALOのアーキテクチャの概要です。
PALOは、その包括的な言語サポートと先進的な技術により、世界中のユーザーにとってよりアクセスしやすいモデルを実現しています。これにより、多様な言語と文化を橋渡しすることで、グローバルなコミュニケーションの新たな可能性を切り開くことに貢献しています。
また、この論文では、多言語ビジョン・言語指示チューニングデータセットも開発しています。このデータセットは、言語の多様性を幅広くカバーし、Liu et al. (2023b) による最先端の大規模マルチモーダルモデルの潜在能力を最大限に引き出すことを目的としています。具体的には、英語から複数の言語への翻訳プロセスを最適化するために、Brown et al. (2020) の大規模言語モデルを基盤とした半自動翻訳パイプラインを導入しています。このアプローチにより、言語ごとの特有の課題、例えば句読点の誤りや文法の微妙な違いに対処しながら、高品質な多言語データセットを構築しています。
このパイプラインは、自動化されたスクリプトと各言語のネイティブスピーカーによる手動レビューを組み合わせることで、翻訳の精度と言語間での一貫性を高めます。特に、性の正確な使用や全体的な言語的整合性など、細かな言語特有の問題に対応しています。
さらに、大規模言語モデルの限界を認識し、各言語で手動で検証され修正された1Kの会話からなる高品質なデータセットを用いて大規模言語モデルをファインチューニングしています。このファインチューニングは、翻訳の精度の向上だけでなく、各言語の特性、例えば音調や表記法との整合性を高めることに焦点を当てています。この改善された大規模言語モデルは、その後、約150Kの指示を含む広範なVLM指示チューニングデータセットへの翻訳に使用され、OpenAIのファインチューニングプラットフォームでさらに調整されています。
この緻密な準備プロセスを経て、PALOのファインチューニングに欠かせない包括的で高品質な多言語データセットが生まれています。
このデータセットは、モデルが含まれる全言語で文脈に即した、文法的に正確なコンテンツを生成する能力を顕著に向上させます。例えば、下図は、英語からアラビア語への翻訳の2つの主要な改善点を強調しています。最初の例では語彙の精度が向上し、2番目の例では文法的一致が改善されています。
このデータセットを大規模マルチモーダルモデルの学習プロセスに統合することが、英語と他の9言語を効果的に含める能力を拡大する鍵としています。
実験
研究チームは、多言語能力の評価として、さまざまな言語にわたる包括的な検証を行いました。この検証には、GPT-4-Turboを活用して翻訳され、人手による微調整を加えた、高品質な評価セットが使用されました。このセットは、室内外のシーン、ミーム、芸術作品など多岐にわたる24の画像と、これらを理解し一般化する能力を測る60の質問から構成されています。
実験の結果、「PALO」は、高リソース言語では堅牢な性能を発揮し、特に7Bモデルと13Bモデルは、これらの言語でそれぞれ平均59.0点と63.8点を獲得しています。これは、多言語拡張がモデルの本来の能力を損なうことなく、効果的に組み込まれたことを示しています。さらに、低リソース言語においても、両モデルの性能は大幅に向上し、それぞれ55.6点と59.2点へとスコアを伸ばしました。結果は下表のようになっています。
全10言語にわたる全体的なパフォーマンスも向上し、7Bモデルは平均57.65点、13Bモデルは61.97点を達成しています。これは、視覚言語タスクにおける世界の言語の複雑な風景を扱うことができる、より包括的で多様で高性能な視覚言語モデル(VLM)の開発に成功したことを示しています。
また、下図はPALOの多言語能力を示す定性的な結果を表しています。ユーザーのクエリに対して、モデルは視覚的コンテンツと関連する言語に関連した正確なテキスト応答を生成します。この図は、多様な言語を通じて視覚と言語理解を結びつける能力を強調しています。このイラストでは、2つの高リソース言語—スペイン語と中国語—と2つの低リソース言語—ヒンディー語とアラビア語—での対話を検証しています。
PALOは、現代のスーパーマーケット内で中世の衣装を着た2人の個人を特徴とする画像の珍しい側面を正確に解釈しています。モデルは中国語で創造的な想像力を示し、これらのキャラクターが絵本の中の王と女王である可能性があるバックストーリーを提案しています。ヒンディー語では、PALOは中世のカップルがタイムトラベラーとして現代に到達した可能性のある状況を描写することでシナリオ構築を示しています。PALOはアラビア語でユーモアのタッチを表示し、王が言うかもしれない遊び心のある対話を想像し、文脈と文化特有のユーモアの微妙な理解を示しています。この画像は、複数の言語でコンテンツを処理し生成する高度な能力を効果的に視覚化し、高い言語的正確性と文化的知能を反映しています。
下図もPALOの視覚的推論と複数言語での巧みさを示す定性的な結果を表しているものです。PALOは、各言語に対して文脈に適した方法で視覚的コンテンツに正確に応答しています。図は、3つの高リソース言語—フランス語、ロシア語、日本語と1つの低リソース言語—ウルドゥ語での会話を描写しています。フランス語のセグメントでは、モデルは冷蔵庫の利用可能な食材を使用したレシピを提案することで実用的な推論を示し、視覚的認識を料理の提案に結びつけています。ロシア語では、PALOはビタミンCが豊富なアイテムを特定し、ウルドゥ語の例では、モデルは冷蔵庫の内容を食品群に整理し、アイテムを分類し栄養知識を適用する能力を示しています。これは、会話の文脈を保ちながら言語間を切り替える能力を効果的に強調し、高リソース言語と低リソース言語の両方で関連性があり文化的に意識されたコンテンツを生成する能力を反映しています。
さらに、特筆すべきこととして、モバイルモデルもまた、高リソース言語と低リソース言語の両方で一貫した改善を示し、全体としてMobileVLMベースラインに比べて平均33.9ポイントの大幅なスコア向上を実現しました。興味深いことに、このモバイルバージョンは、英語や中国語といった高リソース言語においても性能を向上させています。この違いは、言語モデルの事前学習データに起因しています。具体的には、高リソース言語のより良い表現を持つ2兆のトークンで訓練されたLLaMA-2と、主に1.3兆の英語トークンで訓練されたMobileLLaMAとの間での違いです。
この研究は、多言語視覚言語タスクにおけるモデルの性能と汎用性の新たな可能性を開くものと言えます。これらの結果は、我々のアプローチが世界中の言語における視覚言語タスクに対する理解と対応能力を大きく向上させる可能性を示唆しています。
まとめ
この論文では、新しい多言語大規模マルチモーダルモデル「PALO」を開発しています。この革新的なモデルは、世界の人口約3分の2、つまり50億人に対応するために開発されました。PALOは、画像とテキストクエリの両方を入力として扱い、英語や中国語などの主要言語から、アラビア語やヒンディー語などのサポートが少ない言語に至るまで、幅広い言語で効果的に対話できます。このモデルは、10言語にわたる150,000の指示を翻訳し、各言語ごとに1,000の人間による注釈付き会話を用いて精緻化されました。PALOは、視覚と言語の評価において全体的な性能を向上させ、1.7億、70億、130億の3つの異なるスケールでの学習を通じて、その汎用性とスケーラビリティを実証しています。
しかし、半自動翻訳プロセスは、各言語固有の文化的ニュアンスを完全に捉えきれない可能性があり、文化的深みや正確さに影響を及ぼすかもしれません。さらに、選ばれた10言語は広範なカバレッジを提供しつつも、より多くの言語への拡張の余地を示唆しています。また、特にリソースの少ない言語における大規模言語モデルの固有のバイアスは、文化的シンボルやジェスチャーの誤解釈など、視覚データの微妙な解釈に関連するリスクをもたらす可能性があります。これらの課題に対処し、文化的に敏感なコンテキストでの正確性を確保するために、慎重な評価と学習の適用が必要です。
PALOの開発と導入は、言語間の障壁を低減し、世界中のコミュニケーションを豊かにする大きな一歩ですが、その実装には注意深い検討と改善が求められます。この論文の著者は、コード、モデル、データセットは公開予定であるとしています。この分野のさらなる発展への貢献が期待されます。
この記事に関するカテゴリー