MVANet：最强大的背景消除模型

神经网络 31/01/2025

三个要点
✔️ 前景提取（背景移除）任务的主要挑战是在小范围内捕捉高分辨率细节，而在大范围内不损失精度。
✔️ 受人类视觉的启发，我们建议将 MVANet 视为从多个角度观察物体的问题。
✔️ 这一新方法通过改善远距离视觉交互和关注细节，在 DIS-5K 数据集上的精度和速度都优于当前的 SOTA。

Multi-view Aggregation Network for Dichotomous Image Segmentation
written by Qian Yu, Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu
(Submitted on 11 Apr 2024)
Comments: Accepted by CVPR2024 as Highlight
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

前景提取（背景去除）是现代计算机视觉的关键挑战之一，在各种应用中的重要性与日俱增。在图像编辑和视频制作中有效地去除背景不仅能提高美学价值，还能提高工作流程的效率。在要求精确度的领域，如医学图像分析和自动驾驶技术中的物体识别，背景去除也发挥着重要作用。主要的挑战是在高分辨率图像中捕捉小区域的精细细节，同时保持大区域的精确度。迄今为止，还没有一种方法能将细节再现与整体精度相结合。然而，一种名为 MVANet 的新方法为这一挑战提供了创新的解决方案。

MVANet 采用的独特方法受到人类视觉的启发。正如人类从多个角度观察物体一样，MVANet 也从多个角度分析物体。这种方法可以在不丢失细节的情况下提高整体精度。此外，多视角的整合还可实现远距离视觉交互，这是传统方法难以实现的。

市场营销、娱乐、医疗保健和安全等各行各业对背景消除技术的需求与日俱增。在网上购物中，它可使产品的前景更加突出，从而提高购买意愿。它对于使用虚拟背景的视频会议应用以及视频制作中绿屏的替代技术也很重要。随着所有这些应用成为焦点，前景提取性能的提高将对整个行业产生重大影响。

这种新方法已经证明了它的有效性。特别是在 DIS-5K 数据集上，它在精度和速度上都优于目前的 SOTA；MVANet 有潜力成为前景提取任务的新标准，并有望在未来获得更广泛的应用。

建议方法

摘要

MVANet 的整体结构与 UNet 类似，如图 1 所示。编码器使用一个远景（$G$）和一个近景（$Lm$）作为输入，远景和近景由 $M$（本文中为 $M=4$）不重叠的局部斑块组成。

$G$ 和 $Lm$ 构成一个多视角补丁序列，分批输入特征提取器，生成多级特征图 $E_i （i=1,2,3,4,5）$。每个 $E_i$ 包含远景和近景的表示。最高级别的特征图 $E_5$ 沿批次维度被分成两组不同的全局和局部特征，并被输入多视图完成定位模块（MCLM，图 2-a）。2-a），并将其输入 MCLM（MCLM，图 2-a）。

该解码器类似于 FPN（Lin et.al, 2017）架构，但在每个解码阶段都插入了一个即时多视图完成细化模块（MCRM，图 2-b）。每个阶段的输出用于重建 SDO 地图（只有前景的地图）和计算损失。图 1 的右下方显示了多视角整合。局部特征合并后输入到 Conv Head，以便与全局特征进行细化和串联。

学习的损失函数

如图 1 所示，解码器每一层的输出和最终预测都加入了监督。

具体来说，前者由三个部分组成：$l_l$、$l_g$ 和 $l_a$，分别代表细化模块中的组合局部表征、全局表征和标记注意图。每个侧输出都需要一个单独的卷积层来获得单通道预测。后者用 $l_f$ 表示。这些组件结合使用了二元交叉熵（BCE）损失和加权 IoU 损失，这在大多数分割任务中都很常用。

最终的学习损失函数如下式所示。本文设置 $λ_g=0.3, λ_h=0.3$。

试验

数据集和评估指标

数据集

本文使用 DIS5K 基准数据集进行实验。该数据集包含 225 个类别的 5,470 张高分辨率图像（2K、4K 或更大尺寸）。数据集分为三个部分

DIS-TR：3 000 幅训练图像。
DIS-VD：470 幅验证图像。
DIS-TE：2,000 张测试图像，分为四个子集（DIS-TE1、2、3 和 4），每个子集有 500 张图像，几何复杂度依次增加

DIS5K 数据集因其高分辨率图像、详细的结构和出色的注释质量，比其他分割数据集更具挑战性，需要先进的模型来捕捉复杂的细节。

评估指标

采用以下指标评估绩效

最大 F 值：测量准确性和重复性的最大得分，β² 设置为 0.3。
加权 F 值：与 F 值类似，但已加权。
结构相似性测量（Sm）：评估预测值与真实值之间的结构相似性，同时考虑领域和对象识别。
电子测量：用于评估像素与图像之间的匹配程度。
平均绝对误差 (MAE)：计算预测地图与真实值之间的平均误差。

这些指标有助于了解该模型在识别和分割 DIS5K 数据集中具有复杂结构的物体方面的性能。

实验结果

定量评估

表 1 将拟议的 MVANet 与其他 11 个著名的相关模型（F3Net、GCPANet、PFNet、BSANet、ISDNet、IFA、IS-Net、FPDIS、UDUN、PGNet 和 InSPyReNet）进行了比较。为进行公平比较，输入大小标准化为 1024 × 1024。结果表明，在所有数据集的不同指数上，MVANet 都明显优于其他模型。特别是在 F、Em、Sm 和 MAE 方面，MVANet 分别比 InSPyReNet 高出 2.5%、2.1%、0.5% 和 0.4%。

此外，还评估了 InSPyReNet 和 MVANet 的推理速度。两者都在英伟达 RTX 3090 GPU 上进行了测试。由于采用了简单的单流设计，MVANet 的推理速度达到了 4.6 FPS，而 InSPyReNet 为 2.2 FPS。