【Qwen2-VL】画像や動画を異なる解像度で処理できる最新VLM

Large language models 2024年10月01日

3つの要点
✔️ Qwen2-VLはNaive Dynamic Resolutionにより、画像や動画を異なる解像度で効率的に処理
✔️ M-RoPE技術により、視覚データとテキスト情報の位置関係を統合し、複雑なタスクに対応
✔️ 72Bモデルは、多言語対応と高い精度で様々なタスクを解決し、画像と文章の統合処理を強化

Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution
written by Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin
(Submitted on 18 Sep 2024)
Comments:Code is available at this https URL
Subjects:Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

背景

この論文では、視覚とテキストの両方を理解する「Qwen2-VL」というモデルが提案されています。Qwen2-VLは、特に「動的解像度対応機能」という新しい技術を備え、画像や動画を多様な解像度で効率よく処理できる点が特徴です。

従来の視覚言語モデル（LVLM）は、一定の固定された解像度の画像しか処理できず、解像度が高い画像では重要な情報が失われやすいという問題がありました。この課題を克服するため、Qwen2-VLは入力する画像のサイズに応じて最適な処理を行い、解像度が高い画像でも細部まで正確に捉えることができます。

また、Qwen2-VLは「マルチモーダル・ロータリーポジション埋め込み（M-RoPE）」という技術を採用しており、これにより画像や動画、テキストの位置情報を効率的に統合して処理することが可能です。これにより、モデルは単なる画像やテキストの理解だけでなく、動画の中の複雑なシーンや動きも把握する能力が向上しています。

提案手法

この論文で提案されているQwen2-VLの手法は、視覚と言語の両方の情報を統合して高度な認識を行うために設計されています。特に「Naive Dynamic Resolution」と呼ばれる新しい仕組みにより、画像や動画の解像度に関わらず柔軟に処理が行えます。従来の視覚言語モデル（LVLM）は、画像を固定された解像度でしか処理できず、解像度の高い画像では詳細が失われることがありましたが、Qwen2-VLはこの問題を解決しています。

まず、Qwen2-VLは「Vision Transformer（ViT）」を使用して画像を処理します。このViTは675Mパラメータで構成され、どのスケールのモデルでも共通しています。このTransformerが視覚データを処理し、得られた情報を言語モデル（LLM）と組み合わせて解釈します。また、処理する画像の解像度が高くても、適切なトークン数に圧縮して効率よく情報を抽出できる仕組みが組み込まれています。

次に、Qwen2-VLでは「Multimodal Rotary Position Embedding（M-RoPE）」を採用しています。これは、通常の1Dの位置情報だけでなく、時間や空間、さらにはテキストや画像の位置情報を多次元的に扱える仕組みです。これにより、動画のような動的なデータにも対応し、シーンの変化や時間経過を捉える能力が大幅に向上しています。

さらに、Qwen2-VLは「Unified Image and Video Understanding」の仕組みを採用しており、画像と動画を一貫した形で処理できます。これにより、短い動画だけでなく、20分以上の長時間の動画も適切に理解できるようになっています。特に、フレームごとの時間的なつながりや、画像内の詳細な位置情報を効果的に扱うことが可能になっています。

Qwen2-VLの強みは、モデルの規模が大きくなるほど精度が向上する点にあります。特に72Bの大規模モデルは、画像や動画の複雑なタスクを高度にこなす能力があり、さまざまなベンチマークで最先端の性能を発揮しています。例えば、DocVQAやMathVistaなどのデータセットでは、他の多くのモデルを上回る成績を収めています。

実験

この論文で行われた実験では、Qwen2-VLモデルの性能を様々な視覚と言語に関するタスクで検証しています。実験の目的は、提案された技術が他の既存モデルと比べてどれほど優れているかを確認することにあります。

まず、モデルの評価は複数のベンチマークデータセットを用いて行われました。具体的には、視覚質問応答（VQA）、ドキュメント認識、動画の理解、さらには数学的な推論まで、幅広いタスクでのパフォーマンスが測定されました。例えば、DocVQAやInfoVQAのようなテキスト認識に関するデータセットでは、Qwen2-VLは最先端のモデルを超える精度を達成しています。特に72Bという大規模モデルでは、高い精度でドキュメント中のテキストを理解できることが示されています。

また、実験では長時間の動画理解能力についても検証が行われました。Qwen2-VLは20分以上の動画を処理することができ、映像内の内容を理解し、質問に正確に答えることが可能です。この能力は、従来のモデルでは難しかった長時間の動的なコンテンツを扱う上で非常に有効です。

また、動画の処理においても、画像やテキストの位置情報を同時に扱うことができる「M-RoPE」の仕組みが役立っています。

さらに、実験ではモデルの規模が性能に与える影響も検証されました。小規模モデル（2B）から大規模モデル（72B）までの異なるサイズで同じタスクを実施した結果、大規模なモデルほど高い精度で問題を解決できることが確認されました。ただし、特定のタスクではモデルのサイズに関係なく、すでに十分な性能を発揮している場面もあり、モデルの効率性についても考慮が必要であることが示唆されています。

最後に、各実験結果は表形式で示されており、Qwen2-VLは多くのベンチマークで他の競合モデルを上回る結果を達成していることが明確になっています。これにより、視覚と言語の複合タスクにおいて、Qwen2-VLが非常に強力なツールであることが証明されました。

結論

この論文の結論として、Qwen2-VLは視覚と言語の処理において非常に強力な性能を発揮し、最新の技術をさらに進化させたことが示されています。特に、解像度に依存せず、柔軟に画像や動画を処理できる「Naive Dynamic Resolution」や、時空間情報を統合する「M-RoPE」などの革新が、従来のモデルの限界を超える結果をもたらしました。

実験結果から、Qwen2-VLは多くのベンチマークで他の最先端モデルを凌ぐ性能を示し、特に大規模な72Bモデルは、複雑なタスクで最高のパフォーマンスを発揮しています。また、このモデルは英語や中国語だけでなく、日本語やその他の多言語にも対応し、グローバルな適用可能性が高いことが確認されました。

この技術は、今後の視覚と言語の融合を必要とする多様な応用領域で大きな役割を果たすことが期待されています。また、Qwen2-VLは今後、ロボットやモバイルデバイスなどのエージェント操作にも利用できる可能性があるため、さらなる展開が期待されます。

結論として、Qwen2-VLはその高いパフォーマンス、スケーラビリティ、多言語対応性を持つことで、視覚言語モデルの新たな基準を打ち立てたと言えます。