我们能保护深度学习模型的隐私吗?
三个要点
✔️提出"讨厌的老师",通过知识提炼(KD)防止模型复制和再现
✔️在保持与正常模型性能相同的情况下,大幅降低学生模型的性能。
✔️通过各种条件下的实验,展示对知识提炼的免疫力(KD-immunity)。
Undistillable: Making A Nasty Teacher That CANNOT teach students
written by Haoyu Ma, Tianlong Chen, Ting-Kuei Hu, Chenyu You, Xiaohui Xie, Zhangyang Wang
(Submitted on 29 Sept 2020)
Comments: Accepted to ICLR2021.
Subjects: knowledge distillation, avoid knowledge leaking![]()
![]()
![]()
首先
知识提炼通过用(更轻的)学生模型模拟训练有素的教师模型来减少模型大小,同时保持性能。
这种技术在各种情况下都很有用,包括现实世界中那些太大而无法在实践中使用的模型的应用。然而,在某些情况下,它也会造成重大问题。
例如,如果将一个公开的深度学习模型(甚至是黑盒子)作为知识提炼的教师模型,那么这个模型(可能是花了高成本创建的)就可以在未经许可的情况下进行复制和转载。
为了防止知识提炼的误用,本文提出了自解知识提炼的方法,即创建一个名为"讨厌的老师"的教师模型,对模型进行训练,即使使用知识提炼,学生模型也不能有效地发挥作用。建议进行蒸馏。
当以学生模型作为教师模型进行知识提炼时,用这种方法训练的模型会明显降低学生模型的性能。
关于知识提炼
我们首先对知识提炼进行表述。
考虑一个经过预训练的教师网络$f_{\theta_T}(⋅)$和一个学生网络$f_{\theta_S}(⋅)$,其中$\theta_T,\theta_S$是网络的参数。
那么,知识提炼的目标就是使$f_{\theta_S}(⋅)$的输出概率接近$f_{\theta_T}(⋅)$。
设数据集$X$的训练样本为$(x_i,y_i)$,$p_{f_\theta(x_i)}$为$f_{\theta}(⋅)$对$x_i$的对数,则$f_{\theta_S}(⋅)$由以下公式训练。
其中$KL(⋅)$表示KL-分歧,$X/varepsilon$表示交叉熵损失。
粗略地讲,$alpha \tau^s_S KL(\sigma_{\tau_S}(p_{f_{\tau_T}}(x_i)),\sigma_{tau_S}(x_i)))$可以让学生网络学习模仿教师网络的输出,而$(1-\alpha)X\varepsilon(\sigma(p_{f_{\theta_S}}(x_i)),y_i))$允许学生网络学习提高任务的性能。
$alpha$是一个超参数,代表了模仿教师网络和提高任务绩效之间的权衡。
$sigma\\_{tau_S}$是随温度变化的软最大值温度函数,$\tau_S$的值越大(大于1),输出的分布越软(1与普通软最大值函数相同)。
Self-Undermining Knowledge Distillation
理由(讨厌的老师)
自我解密知识提炼的目标,是建立一个名为讨厌老师的教师网络,训练一个特殊的教师网络,使学生网络不能进行知识提炼(即表现不比平时学习好)。).
让$f_{\theta_T}(⋅)$是讨厌的教师网络,$f_{\theta_A}$是对手(试图从教师网络中提炼知识)网络。
我们训练讨厌的老师,使讨厌的老师和对手网络之间的KL-分歧最大化。这用以下公式表示:
可以看到,它与前面的方程非常相似,但请注意,这是一个代表教师网络学习过程的方程。
这里,$X\varepsilon(\sigma(p_{f_{\theta_T}}(x_i)),y_i))$是一个交叉熵损失项,旨在提高教师网络在任务上的表现。
另一方面,$-/omega tau^2_A KL(\sigma_{tau_A}(p_{f_{/tau_T}}(x_i)),\sigma_{tau_A}(x_i)))$是一个旨在使教师网络和学生网络之间的KL-差异最大化的术语。项(由于符号为负数,所以KL-divergence越大,总体数值越小)。
$tau_A$代表softmax函数随温度的温度,$/omega$代表任务性能和KL-分歧最大化之间的权衡。
除了KL-分歧项的符号发生变化,教师网络和学生网络部分替换外,它的组成公式与普通知识提炼的公式非常相似,可以说是一个非常简单的思路。
关于执行
我们不对网络架构做任何假设。因此,对于$f_{\theta_T}$和$f_{\theta_A}$,我们将使用相同的架构来学习(我们将验证$f_{\theta_A}$在实验的消融研究过程中改变的情况)。
训练讨厌老师时,$f_{\theta_A}$固定使用预先训练好的模型,只有$f_{\theta_T}$才会更新。
实验
为了验证讨厌老师的效果,我们根据前面描述的方程对网络进行训练,然后在任意的学生网络上验证知识提炼的性能。
实验设置
我们使用CIFAR-10、CIFAR-100和Tiny-ImageNet作为数据集。
・网络
在CIFAR-10中,我们采用ResNet18作为教师网络,5层CNN作为学生网络。我们还用ResNetC-20/ResNetC-32代替学生网络,调查学生网络变化的影响。
在CIFAR-100和Tiny-ImageNet中,ResNet-18、ResNet-50和ResNeXt-29被用作教师网络。另外,MobileNetV2、ShuffleNetV2和ResNet-18也被用作学生网络。
此外,作为"师自"的配置,教师网络和学生网络采用相同的架构。
超参数
CIFAR-10的温度$tau/A$设置为4,CIFAR-100和Tiny-ImageNet的温度$tau/A$设置为20(在知识提炼过程中与$tau_S$的值相同)。
CIFAR-10的ω为0.004,CIFAR-100的ω为0.005,Tiny-ImageNet的ω为0.01。
实验结果
CIFAR-10、CIFAR-100和Tiny-ImageNet的实验结果分别见下表。
可以看到,讨厌老师与正常人相比,最大性能损失只有2%。
并且表明,在正常网络上的知识提炼可以提高学生网络的性能,最高提高4%,而在讨厌老师上的知识提炼则降低了1.72%的准确率,达到67.57%。
我们还看到,较弱的学生网络(如MobilenetV2)比较强的学生网络(如ResNet-18)表现得更差。
即使教师网络和学生网络是相同的(教师自我),其性能下降也是一致的。
这些结果可能表明,从讨厌老师那里提炼出的知识是非常困难的,知识提炼的能力可以防止模型的复制和再现。
定性分析
为了探究讨厌的老师和正常学习的区别,下面以ResNet-18的CIFAR-10中的logit反应为例。
像往常一样训练的ResNet-18的logit响应(蓝色竖条)都由近乎单一的峰值组成。
另一方面,讨厌的老师(浅黄色)显示有多个峰。
我们可以直观地认为,如果我们从这样的教师网络中进行知识提炼,学生网络很可能获得不正确的知识。
t-SNE的特征嵌入和输出logit的可视化如下图所示。
图中上半部分是特征嵌入的可视化,下半部分是输出logit的可视化。
正常教师和讨厌教师在特征空间的类间距离没有明显变化,说明讨厌教师的行为与正常教师网络相似。
另一方面,对数输出也发生了很大变化。这意味着,讨厌老师主要是改变最后一个全拼层的权重。
消融研究
对抗性网络
如果我们改变训练Nasty Teacher时使用的对手网络$f_{\theta_A}$(即我们对教师网络和对手网络使用不同的架构),我们得到以下结果。
其中,教师网络和对手网络采用与之前相同的架构(ResNet18)。对比其他案例,我们可以看出,讨厌老师总体上是有效的。
然而,应该注意的是,弱网络(如CNN)可能会降低教师网络的性能。
关于$omega$
接下来,将超参数$\omega$从0到0.1变化的结果如下所示。
图中,T代表教师网络,S代表学生网络。
可以看出,通过调整ω,我们可以控制知识提炼过程中教师网络的性能和学生网络的性能下降之间的权衡。
About $tau_S$.
知识蒸馏过程中改变温度参数$tau_S$的结果如下图所示。
在所有的情况下,学生网络的性能一般都是下降的,但是我们可以看到,$\tau_S$越大,学生网络的性能就越下降。
关于$alpha$.
默认情况下,$/alpha$的值被设置为0.9,但如果你把它从0.1改为1.0,你会看到以下内容
无论如何选择$alpha$的值,学生网络的性能普遍下降。
$α$越小,学生网络的性能越高,但这意味着教师网络的知识提炼程度(KL-divergence最小化)在下降,所以从讨厌的老师那里进行知识提炼还是很困难的。因此,从讨厌的老师身上提炼出知识还是很困难的。
关于训练样本的比例
考虑到学生网络无法获得所有的训练数据,改变训练样本比例的表现如下所示
在所有案例中,我们一致发现,与普通教师网络的知识提炼相比,学生网络受到了来自讨厌老师的不利影响。
无数据知识提炼
我们评估了Nasty Teacher在最先进的无数据知识提炼方法(DAFL,DeepInversion)上的性能,同时考虑到使用一种即使在用于训练教师网络的数据集无法访问的情况下也能进行知识提炼的方法(无数据知识提炼)。我们对讨厌的老师的表现进行评价。
初步得出DAFL的应用实验结果如下。
与使用普通ResNet34相比,Nasty老师成功地将学生网络的性能降低了5%以上。
此外,以下是一个训练过的教师网络试图恢复DeepInversion训练期间使用的数据的可视化示例。
与普通ResNet-34生成的图像相比,Nasty老师生成的图像包含扭曲的噪声和错误的类特征,这表明它们也可能阻碍了通过反向工程重建训练数据。
摘要
知识提炼是一项非常有用的技术,但它也带来了发布的模型可以被复制和再造的风险。这个问题的存在,导致了出版和提供模型的潜在风险。
在某些情况下,担心通过知识提炼进行复制,可能会导致很多深度学习模型无法发布,扼杀了社区的发展。
在本文介绍的论文中,我们能够显著降低学生模型的知识提炼性能,而性能几乎和普通模型一样好。
该技术导致"深度学习模型的隐私保护",这是一项重要的研究,可以解决上述问题。
与本文相关的类别