
ImmerseGen:エージェントが導く、軽量×高臨場の次世代VRシーン生成
3つの要点
✔️ 軽量なジオメトリとRGBAテクスチャにより、没入感の高い3D VRシーンを効率的に生成
✔️ エージェントがアセットの選定・配置を行い、視覚的一貫性と空間的正確性を両立
✔️ 動的エフェクトと環境音により、多感覚なリアルタイムVR体験を実現
ImmerseGen: Agent-Guided Immersive World Generation with Alpha-Textured Proxies
written by Jinyan Yuan, Bangbang Yang, Keke Wang, Panwang Pan, Lin Ma, Xuehai Zhang, Xiao Liu, Zhaopeng Cui, Yuewen Ma
(Submitted on 17 Jun 2025 (v1), last revised 18 Jun 2025 (this version, v2))
Comments: Project webpage: this https URL
Subjects: Graphics (cs.GR); Computer Vision and Pattern Recognition (cs.CV)
概要
本論文では、没入型VR空間における高品質な3Dシーンの自動生成に関する新たなアプローチ「ImmerseGen」が提案されています。
ImmerseGenは、従来の複雑な高ポリゴンモデリングや3Dガウス表現に依存する手法とは異なり、軽量なジオメトリプロキシと高品質なRGBAテクスチャを用いた階層的なシーン構成を実現。中心となる技術は、ユーザー入力のテキストプロンプトに基づいて、視点中心の地形テクスチャ生成、簡素化された中景・前景オブジェクトの配置、および自然音や動的エフェクトによる多感覚体験の統合です。特に、エージェントによるアセット選定・配置を可能にすることで、従来手法のボトルネックであった空間的理解の不足や冗長なアセット生成を解決しています。
また、本手法は、Snapdragon XR2搭載のモバイルVRデバイスにおいても80FPS近くの描画性能を達成しており、リアルタイム性と没入感を高い次元で両立。実験では、先行手法と比較して美的品質、現実感、テキストとの整合性において優れた結果が得られました。
提案手法
ImmerseGenの中核を成すのは、テキスト入力から階層構造の3D世界を構築する、エージェント駆動型の生成パイプラインです。
まず、ユーザーのプロンプトに応じて適切な地形テンプレートを検索し、視点中心のUVマッピングを通じて地形と空を高解像度でテクスチャリングします。この際、ControlNetによる深度条件付き拡散モデルを利用し、地形形状に適合するパノラマ画像を生成。
次に、VLM(Vision-Language Model)ベースのエージェントが中景・前景オブジェクトを選定し、それぞれの距離に応じてプロキシメッシュを決定します。中景には看板型テクスチャ、前景には低ポリメッシュに対するアルファテクスチャが使用されるとのこと。配置にあたっては、画像上にグリッドを重ねた意味的解析を行い、適切な位置を粗から細へと決定していきます。
最終的に、各アセットには文脈に応じたRGBAテクスチャを合成し、背景と自然に融合させます。また、風や雨、動く雲などの視覚効果や、鳥や水音などの音響を加えることで、視聴者に多感覚の没入体験を提供します。
実験
本研究では、ImmerseGenの有効性を多角的に検証するため、Infinigen、DreamScene360、WonderWorld、LayerPano3Dといった既存のシーン生成手法と比較実験が行われました。
評価指標としては、テキストとの整合性(CLIP-Score)、美的品質(CLIP-Aesthetic)、およびVLMベースの視覚スコア(QA-Quality)が用いられています。その結果、ImmerseGenはCLIP-AestheticおよびQA-Qualityで最高スコアを記録し、生成されたシーンの美しさと一貫性が確認されました。
加えて、VR機器上での実行性能も比較され、他手法が8〜14FPS程度に留まる一方で、本手法は平均79FPSを達成。アブレーションスタディでは、地形の深度適応やアセット配置のグリッド分析が描画品質に顕著な影響を与えることが示されました。また、ユーザースタディでも、被験者の過半数がImmerseGenによるシーンを他手法よりも好ましいと評価しています。
これらの結果は、軽量なプロキシ構造とエージェント主導の設計が、実用的かつ視覚的に優れた没入型VR空間の生成に寄与することを裏付けています。
この記事に関するカテゴリー