
使用内部-外部学习和对比学习的艺术风格转变。
三个要点
✔️一种新的内部-外部风格转换,考虑到内部和外部的学习,大大缩小了人类生成的图片和AI生成的图片之间的差距。
✔️首次将对比性学习引入到风格转换中,使风格转换结果更加完整,风格之间的关系也得到了学习。
✔️与现有的几种SOTA方法的有效性和优势进行比较。
Artistic Style Transfer with Internal-external Learning and Contrastive Learning
written by Haibo Chen, Lei Zhao, Zhizhong Wang, Zhang Hui Ming, Zhiwen Zuo, Ailin Li, Wei Xing, Dongming Lu
(Submitted on 22 May 2021)
Comments: NeurIPS 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
现有的艺术风格转换在深度神经网络中产生了很好的效果,但它们产生了不和谐的颜色和重复的模式。因此,在本文中,我们提出了一个具有两个对比性损失的内部-外部学习。特别是,我们利用单个风格图像的内部统计数据来确定颜色和纹理,并从一个大规模的风格数据集中提取外部信息,使颜色和图案更加和谐。此外,注意到现有的模型考虑了内容-风格化和风格-风格化的关系,但没有考虑风格化-风格化的关系,对于包含多个风格化的图像来说,那些共享内容或风格的图像是接近的,而那些不共享的图像是远离的。对比性损失被引入到
技术
该方法的概览图见下图。SANet是风格转换的SOTA模型之一,被用作骨干。
内部-外部学习
让$C$表示照片的数据集,$S$表示艺术品的数据集。我们的目的是从单个艺术作品$I_S\in S$中学习内部风格特征和从$S$中学习人类意识到的外部风格特征,以获得任何内容$I_C\in C$的风格转换艺术图像$I_{SC}$。
内部风格学习
在现有方法的基础上,使用训练好的VGG-19模型$phi$来获得单一艺术图像的内部风格特征。风格损失如下。
$${\cal L}_S:=\sum_{i=1}^{L}||\mu(\phi_i(I_{SC}))-\mu(\phi_i(I_S))||_2+|\sigma(\phi_i(I_{SC}))-\sigma(\phi_i(I_S))||_2$$
其中$phi/i$代表$phi$的第i$层。$mu,\sigma$分别为平均值和方差。
外部风格学习
为了从$S$中学习人性化的风格,我们使用GANs,其中生成器是${cal G}$,判别器是${cal D}$,假图像是风格化的图像,真图像是艺术图像。对抗性LOSS的情况如下。
$${cal/L}_{adv}:={{mathbb E}_{I_S\sim S}[log({cal D}(I_S))+{cal E}_{I_C\sim C, I_S\sim S}log(1-{cal D}(D(E(I_C), E(I_S)))))]$$
内容结构保存
为了保持内容图像的结构,引入了以下LOSS。
$${\cal L}_C:=||\phi_{conv4\_2}(I_{SC})-\phi_{conv4\_2}(I_C)||_2$$
身份丧失
如果内容和风格的图像是相同的,生成器${\cal G}$应该有一个相同的映射。这就保留了内容和风格结构。身份损失的计算方式如下。
${/calL}_{identity}:=\lambda_{identity1}(||I_{CC}-I_C||_2+||I_{SS}-I_S||2)+\lambda_{identity2}\sum_{i=1}^L(||\phi_i(I_{CC})-\phi_i(I_C)||_2+||\phi_i(I_{SS})-\phi_i(I_S)||_2)$$
其中$I_{CC}$是内容和风格图像为$I_C$时生成的图像,$I_{SS}$是相同的。$lambda_{identity}$是平衡参数。
对比性学习
直观地说,具有相同风格的转换图像应该有密切的关系,具有相同内容的风格转换图像也应该有密切的关系。这些关系被称为风格化-风格化关系。传统的方法没有考虑到这些关系,例如${cal L}_S$和${cal L}_C$。只考虑了内容-风格化和风格-风格化。因此,本文介绍了对比性学习并考虑了这些关系。特别是,我们为风格和内容定义了两种类型的对比性损失。让$s_i, c_i$分别为第i$张风格和内容图片,$s_ic_i$为$c_i$。以$s_i$风格转换的第$s_i$图像。让批次大小为$b$(偶数),风格批次为${s_1,s_2,_cdots,s_{b/2},s_1,s_2,_cdots,s_{b/2-1},s_{b/2}}$,内容批次为${c_1,c_2,_cdots,c_{b/2},c_2,c_3,\cdots,c_{b/2},c_1\}$.这样,对于任何$s_ic_j$,我们可以找到共享风格的$s_ic_x(x\neq j)$和共享内容的$s_yc_j(y\neq i)$。
风格对比损失
对于一个风格化的图像$s_ic_j$,以$s_ic_x(x\neq j)$为正样本,$s_mc_n(m\neq i, n\neq j)$为负样本,风格对比性损失如下。
$${\cal L}_{S-contra}:=-log(frac{exp(l_S(s_ic_j)^Tl_S(s_ic_x)/\tau)}{exp(l_S(s_ic_j)^Tl_S(s_ic_x)/\tau)+\sumexp(l_S(s_ic_j)^Tl_S(s_mc_n)/tau)})$$
然而,$l_S=h_S(phi_{relu3\_1}(\cdot)),h_S$是风格映射网络,$tau$是温度参数。
内容对比损失
同样,如果$s_yc_j(y\neq i)$是一个正样本,$s_mc_n(m\neq i, n\neq j)$是$s_ic_j$的一个负样本,内容对比损失如下。
$${\cal L}_{C-contra}:=-log(frac{exp(l_C(s_ic_j)^Tl_C(s_yc_j)/\tau)}{exp(l_C(s_ic_j)^Tl_C(s_yc_j)/\tau)+\sumexp(l_C(s_ic_j)^Tl_C(s_mc_n)/tau)})$$
然而,$l_C=h_C(phi_{relu4\_1}(cdot)),h_C$是内容映射网络。
最后的失利
最后的LOSS函数总结了上述内容。
${cal L}_{final}:=lambda_1{cal L}_S+lambda_2{cal L}_{adv}+lambda_3{cal L}_C+lambda_4{cal L}_{identity}+lambda_5{calL}_{S-contra}+\lambda_6{\cal L_{C-contra}}$$
情况就是这样。然而,$\lambda$是一个超参数。
结果。
定性评价
结果如下图所示:第一行显示的是内容图像和样式图像,第二行和后续行显示的是使用各自方法进行样式转换的结果。
这些数字表明,现有的方法显示出扭曲和形状崩溃,而目前的方法协调了风格,产生了可信的结果。
量化评价
作为一种定量评价,使用了广泛使用的LPIPS。为了衡量稳定性和一致性,计算了视频中相邻帧之间的平均距离。结果显示在下面的表格中。值越低,性能越好,这种方法的效果最好。
摘要
本文提出了一种具有两种对比性损失的内部-外部风格转换方法。已经进行了各种实验,结果表明,该方法在质量和数量上都优于现有的方法。由于所提出的方法的简单和高效,我们的目标是给艺术风格转换的研究一个新的理解,并在未来应用于其他方法。
与本文相关的类别