恶作剧:用简单的 "恶作剧 "攻击欺骗变形金刚模型
三个要点
✔️ 敌对的样本,人类能读懂,但人工智能读不懂。
✔️ 它可以显著降低机器学习模型的正确答案比例。
✔️ 你还可以增强数据,提高模型的稳健性。
Mischief: A Simple Black-Box Attack Against Transformer Architectures
written by Adrian de Wynter
(Submitted on 16 Oct 2020)
Comments: Accepted at arXiv
Subjects: Computation and Language (cs.CL); Cryptography and Security (cs.CR); Machine Learning (cs.LG)
研究人工不类能读懂的句子欺工能懂来用是骗思能智人的智但路人。
介绍
对深度学习模型的敌意攻击是通过输入来降低模型的准确性。第一个是白盒攻击,可以通过模型的梯度进行攻击,第二个是黑盒攻击的配置,不允许进入模型。
在本文中,我们将只涉及黑盒方法,以覆盖所有系统。而我们将针对变换器架构,如BERT,在各种语言任务中产生高性能。现有的研究表明,语言模型既容易受到黑盒和白盒的对抗性攻击。然而,关于如何创建和防御敌对样本的实用方法却很少被设计出来。
本文提出了一种有效的语言模型黑盒攻击方法,并介绍了在训练数据中加入对抗性样本以提高模型的鲁棒性的效果。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别