赶上最新的AI论文

TriMM:通过协作式多模态编码生成高质量三维图像

TriMM:通过协作式多模态编码生成高质量三维图像

三个要点
✔️ TriMM 通过集成 RGB、RGBD 和点云的协作式多模态编码实现了高质量 3D 生成
✔️ 引入了 2D/3D 损失和 VAE 压缩技术,从而能够对纹理和几何结构进行高效学习
✔️ 在标准数据集评估中优于现有方法,即使数据量较小也能实现高清晰度即使数据量较小,也能生成高清三维图像。

Collaborative Multi-Modal Coding for High-Quality 3D Generation
written by Ziang CaoZhaoxi ChenLiang PanZiwei Liu
(Submitted on 21 Aug 2025)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本研究提出了一种新的框架 TriMM,它以协调的方式利用多种模式(如 RGB 图像、RGBD 图像和点云)生成高质量的三维图像。

传统的三维生成模型往往依赖于单一模式,特别是 RGB 图像,虽然这些图像具有丰富的纹理信息,但存在几何结构模糊和缺乏深度表示等局限性。
因此,它们难以再现复杂结构和隐藏区域。

TriMM 使用特定模态编码器从点云和深度数据中提取 RGB 纹理信息和几何信息,并通过 "协作多模态编码 "将它们整合在一起。
这种统一的潜在表征通过基于三平面结构的潜在扩散模型转换为高清三维资产。
此外,通过引入二维和三维辅助损失,重建的鲁棒性和表现力也得到了提高。

所提出的方法在处理少量数据时表现良好,其结果可与传统的大规模数据依赖模型相媲美。

建议的方法

TriMM 的核心是一种称为协作多模态编码的方法。


RGB 提供了密集的纹理信息,RGBD 补充了深度的三维效果,而点云则定义了精细的几何结构。
在整合这些信息时,其目的是最大限度地发挥优势,同时相互弥补不足,特别是通过交叉连接和残余连接来确保不同模态之间的一致性。

此外,三平面潜影扩散模型能够在压缩的潜影空间上高效、准确地生成图像。
在训练过程中,引入了混合损失函数,将基于渲染图像和深度图的二维损失与基于签名距离函数(SDF)的三维损失相结合。

这种配置既能保证纹理的清晰度,又能保证几何结构的准确性。
它还通过结合 VAE 对潜在表征的压缩,提高了学习的稳定性和效率。

实验

在实验中,我们使用了标准三维数据集,如 Objaverse、Google Scanned Objects(GSO)和 OmniObject3D 进行评估。

首先,在使用 Objaverse 进行的重建实验中,TriMM 的表现优于 RGB-only、RGBD 和点云等单一模态方法,在纹理质量(PSNR)和几何精度(倒角距离、F-score)方面都表现出色。
其次,在使用 GSO 和 OmniObject3D 对未知物体进行验证时,它也取得了与现有先进方法相当或更好的结果。
特别是,RGB 纹理、点云几何图形和 RGBD 深度的整合已被证明大大超越了依赖任何单一模式的方法。

此外,通过消融研究表明,重建损失、2D/3D 混合监督和 VAE 的引入有助于提高性能。
在用户研究中,TriMM 生成的结果也被认为比其他方法更自然、质量更高。

这些结果表明,该方法即使在数据量较小的情况下也能生成高质量的三维图像,为解决三维数据不足这一根本问题提供了有效的解决方案。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们