
TriMM: 協調マルチモーダルコーディングによる高品質3D生成
3つの要点
✔️ TriMMはRGB・RGBD・点群を統合する協調マルチモーダルコーディングで高品質3D生成を実現
✔️ 2D/3D損失やVAE圧縮を導入し、テクスチャと幾何構造を両立させ効率的に学習可能
✔️ 標準データセット評価で既存手法を上回り、少量データでも高精細な3D生成を達成
Collaborative Multi-Modal Coding for High-Quality 3D Generation
written by Ziang Cao, Zhaoxi Chen, Liang Pan, Ziwei Liu
(Submitted on 21 Aug 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
概要
本研究は、高品質な3D生成を目的として、RGB画像・RGBD画像・点群といった複数のモダリティを協調的に活用する新しいフレームワーク「TriMM」を提案しています。
従来の3D生成モデルは、単一モダリティ、特にRGB画像に依存する傾向が強く、テクスチャ情報は豊富である一方で、幾何構造の曖昧さや奥行き表現の不足といった限界を抱えていました。
その結果、複雑な構造や隠れた領域の再現が困難であったとのこと。
TriMMは、モダリティ固有のエンコーダを用いてRGBの質感情報と点群や深度データの幾何的情報を抽出し、それらを「協調マルチモーダルコーディング」によって統合。
この統一された潜在表現は、三平面(Triplane)構造に基づく潜在拡散モデルによって高精細な3D資産へと変換されます。
さらに、2Dおよび3Dの補助的損失を導入することで、再構築の堅牢性と表現力を向上。
本手法は少量のデータでも高い性能を発揮し、従来の大規模データ依存型モデルに匹敵する結果を示しています。
提案手法
TriMMの核となるのは「Collaborative Multi-Modal Coding」と呼ばれる手法です。
ここではRGB、RGBD、点群の3種類の入力を、それぞれ専用のエンコーダで処理し、三平面表現へと投影します。
RGBは高密度な質感情報を提供し、RGBDは奥行きによる立体感を補完し、点群は精緻な幾何構造を定義。
これらの情報を統合する際、弱点を相互に補い合いながら強みを最大限に活用するよう設計されており、特にクロスアテンションや残差接続を通じてモダリティ間の整合性が保たれます。
さらに、三平面潜在拡散モデルを採用することで、圧縮された潜在空間上で効率的かつ高精度な生成を可能に。
学習時には、レンダリング画像や深度マップに基づく2D損失と、SDF(Signed Distance Function)に基づく3D損失を組み合わせるハイブリッドな損失関数を導入しました。
この構成により、テクスチャの鮮明さと幾何構造の正確性の両立が実現。
また、VAEによる潜在表現の圧縮を組み合わせることで学習の安定性と効率を向上させています。
実験
実験では、ObjaverseやGoogle Scanned Objects(GSO)、OmniObject3Dといった標準的な3Dデータセットを用いて評価を行いました。
まず、Objaverseを用いた再構築実験では、TriMMがRGBのみ・RGBD・点群といった単一モダリティの手法を上回り、テクスチャ品質(PSNR)と幾何精度(Chamfer Distance, F-score)の両面で優れた性能を示しました。
次に、GSOやOmniObject3Dを用いた未知オブジェクトでの検証でも、既存の最先端手法と比較して競合あるいはそれ以上の結果を達成。
特に、RGBの質感、点群の幾何、RGBDの奥行きを統合した場合、いずれか単一のモダリティに依存する手法を大きく超える効果が確認されています。
さらに、アブレーション研究を通じて、再構築損失や2D/3D混合監督、VAE導入が性能向上に寄与することを明らかにしました。
また、ユーザースタディにおいても、TriMMによる生成結果は他手法より自然で高品質と評価。
これらの結果から、本手法は少量データでも高品質な3D生成を実現し、3Dデータ不足という根本的課題への有効な解決策を提示しています。
この記事に関するカテゴリー