像专业摄影师一样拍照!考虑到构图的图像裁剪技术[CACNet]

图像采集 05/08/2021

三个要点
✔️裁剪技术，自动化专业摄影师的审美构成
✔️摄影构图规则的明确建模，使预测结果具有可解释性
✔️性能明显提高，实现了与最先进的技术相媲美的准确性！

Composing Photos Like a Photographer
written by Chaoyi Hong, Shuaiyuan Du, Ke Xian, Hao Lu, Zhiguo Cao, Weicai Zhong
(Submitted on 2021)
Comments: Accepted by Conference on Computer Vision and Pattern Recognition (CVPR), 2021.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文件，要么是参照论文件制作的。

简介

为了拍出漂亮的照片，需要考虑许多因素。有许多因素需要考虑，你需要有很多专业知识和经验。因此，如果你想得到这样的照片，你应该雇用一个专业摄影师。

自动图像裁剪是一项技术，它具有梦幻般的潜力，可以将一张普通人拍摄的照片变成一张看起来像专业摄影师拍摄的照片。然而，这是一个需要学习摄影美的抽象概念的问题，而且很难判断预测结果的有效性。因此，作者提出了一种方法，从图像中辨别性地学习构图，这是摄影中的一个重要元素，并明确地将学到的构图线索纳入模型。这导致了在预测可以解释的地方进行图像裁剪。此外，他们提出的方法在性能上明显优于现有方法。下一节将依次介绍这些细节。

照片构成

有许多不同类型的构图，例如下图所示。从左到右，它们被称为三方构成、中心构成、水平线构成和对称构成。专业摄影师使用这些类型的构图来创造美丽的照片。

作者建立了一种图像裁剪技术，明确地模拟了这些构成规则。

传统方法

有两种主要的方法可以考虑

注意力引导下的图像裁剪
- 通过显著性地图和能量函数进行估算
- 好的图像剪裁背后的想法是能够保留突出的对象和信息区域。是一个很好的图像剪裁。
- 常用于缩略图和其他应用。
以美学为依据的图像裁剪
- 一种基于美感的方法
- 用带注释的审美标签学习(分类，排名学习，等等)
- 假设该模型能够从标签中获得有关美学构成的信息。

也有人提出了这些方法的组合。目前的主流政策似乎是事先从图像中准备好一组候选作物，对它们进行美学评分，然后采用得分最高的那个，如下图所示。

然而，这些方法存在性能问题，因为它们要求模型只对有剪裁图像的候选人进行评分。它们也很难解释，因为它们没有明确地模拟对一张照片的美感有贡献的因素（如构图）。可解释性对于涉及模糊的摄影美学概念的问题很重要，没有可解释性就很难衡量预测的有效性和判断模型在实验中是否有改进。

建议的方法：CACNet

现在我们来介绍一下作者提出的方法。作者强调了 "构图 "在一张好照片中的重要性，并提出了一种明确包含识别模型中构图规则的裁剪方法。这意味着，所提出的方法的裁剪是如下图所示一个或多个已确定的组成规则。它还通过追踪切割结果中使用的组成规则来提高预测的可解释性。

作者提出CACNet，如下图所示，作为实现上述目的的网络。

CACNet由三部分组成：从图像中提取特征的骨干网络，识别九条构图规则的构图分支，以及预测图像裁剪位置的裁剪分支。此外，组成分支的类激活图被提取出来以创建KCM，这将在后面解释。

CACNet是一个成功整合了构图识别和图像裁剪的网络，利用它在一次前馈中获得最终的裁剪位置。让我们来看看这些要素中的每一个。

组成处

在这里，我们学习构成规则，正如前面解释的那样。我不知道构成是可学习的，但事实上，已经提出了一个识别构成规则的数据集，即KU-PCP数据集，它也被用于构成科。组成处使用KU-PCP数据集，并将其作为一个普通的分类问题进行训练。数据集中有9种类型的组成规则，如下图所示。

上面两行是从数据集中选取的，下面两行是由组成处预测的实际结果。就我们所见，结果是非常好的。

关键构成图（KCM

KCM负责向耕作部门传达组成线索。在剪裁时，必须考虑图像所遵循的构图规则，以及这些规则的组合。在上面的例子中，我们可以假设有两种可能的构图规则，即三方和地平线，KCM将帮助合并它们并将它们传达给裁剪处。以下是创建KCM的程序。

为每条组成规则创建一个CAM
- $M_n = sum^{C}_{c=1} w_{c, n} \cdot F_c$
将每个CAM结合起来，创建一个KCM
- $KCM = \sum^{N}_{n=1} s_n \cdot phi (M_n)$
根据输入图像的大小对KCM进行向上取样

耕种处

最后，Cropping Branch（CACNet架构中图的上半部分）使用锚点法来训练一个锚点回归模型。锚点以K个步长均匀地设置在图像上，模型被训练来预测与裁剪位置相对应的锚点。对于损失函数，我们使用一般的平滑l1损失。组成处的输入，KCM，被用来对锚点进行加权。这样就可以实现构图意识的裁剪。

CACNet的可解释性

对CACNet要素的描述到此为止。回顾一下CACNet的一些主要优点，给定一个输入图像，CACNet不仅可以产生预测结果，还可以它为其预测提供了很多可解释的证据，如突出可识别的构图的KCM，或图像遵循的一个或多个构图规则。有了这个数量的证据，我们可以衡量我们的预测的有效性，这使我们更容易改进和运行模型。

这让我想到，可解释性在解决这类模糊推理问题中起着非常重要的作用。

实验和评估

为了证明所提出的方法的有效性，作者使用常见的图像采集评估数据集（FCDB、FLMS）与基准进行了比较。本节将对它们进行简要描述。

该表对切割的准确性作了定量比较。BDE和IoU被用作评价指标，而FPS被用来衡量性能。综上所述，作者提出的方法（CACNet）在FCDB和FLMS数据集上取得了与最先进的方法相同或更好的准确性，而且其性能明显比传统的加速方法快（155 FPS）。这种效率是由于CACNet是一种单阶段的回归方法，这使得它比传统的Box-by-Box评分方法具有显著的优势。

下图也显示了定性的结果，显示CACNet的输出相当接近于地面实况的截止点。

另一方面，我们没能为FCDB记录最先进的性能，如表所示。其原因是，如下图所示，当GrandTruth的切出框相对较小时，CACNet容易失败（GrandTruth为红色，CACNet预测为绿色）。

由于CACNet查看整个图像并在一次回归中找到裁剪位置，因此有可能预先选择候选框。(包括小盒子)FCDB未能记录的现状也被认为是由于这种小的GrandTruths数量相对较多。

这是目前方法的局限性之一，但我们认为可以通过在合并到KCM之前使用CAM，或者结合物体检测结果来改进。

应用

最后，在一个有趣的实验中，我们比较了CACNet对同一场景的三张图片的推理结果，这三张图片的摄像头是固定的，但图片中的物体（一盆植物）的位置不同。

从上图可以看出，盆栽的位置对感知画面的构图有很大的不同，摄影师并没有被同一场景所迷惑，而是准确地感知到了构图的重要元素。这也表明，裁剪工作做得很准确，考虑到了构图。

摘要

图像采集不是一个主要的研究课题，但它是一个有趣的课题："像专业摄影师一样自动进行照片的审美构成"。如缩略图的生成。只考虑到信息量大的部分然而，从商业角度来看，我认为这是一个有趣的领域，因为根据你所开发的服务的特点，有很多方法可以做到这一点。

我们还觉得，像我们在这里所做的那样，明确地模拟判断美和善的基础，是一个重要的优势，因为它不仅使我们能够裁剪，而且还能过滤和搜索好的照片。

与本文相关的类别

图片识别

tonouchi