
人类如何被大规模语言模型创建的网络钓鱼电子邮件迷惑?
三个要点
✔️ 测试大规模语言模型创建的钓鱼邮件对真人的有效性
✔️ GPT-4 和人工创建的钓鱼邮件对比实验
✔️ 结合 GPT-4 和人工的钓鱼邮件质量最高质量最高
Devising and Detecting Phishing: Large Language Models vs. Smaller Human Models
written by Fredrik Heiding, Bruce Schneier, Arun Vishwanath, Jeremy Bernstein
(Submitted on 23 Aug 2023)
Comments: Published on arxiv.
Subjects: Cryptography and Security (cs.CR)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
大规模语言建模(LLM)在过去几年中取得了长足进步,GPT-4 和Claude等模型证明了它们有能力生成类似人类的文本、连贯地说话并以极高的水平执行语言任务。
这些大规模语言模型善于创建看起来真实可信的文本内容,只需少量数据集,甚至模仿某人独特的语言风格,就能创建出似乎是为目标量身定制的内容。
本文作者指出,LLMs 模仿人类句子的这一特性有助于制作网络钓鱼电子邮件(通过使用目标的少量信息来伪造电子邮件,使其看起来逼真、相关)。
在此背景下,本文介绍了一项实验,该实验要求 112 名参与者比较由 GPT-4 自动生成的钓鱼电子邮件和由人类手动生成的钓鱼电子邮件,并验证了大规模语言模型对钓鱼电子邮件的有效性。本文介绍了验证大规模语言模型对网络钓鱼电子邮件有效性的论文。
网络钓鱼邮件和大规模语言模型的历史
网络钓鱼电子邮件是全球组织、政府和机构面临的最顽固的网络安全威胁之一,但许多首批网络钓鱼电子邮件质量很差,包含不恰当的信息以及不正确的语言和语法。
此外,有效的网络钓鱼电子邮件也有其自身的问题,如需要更多的成本和专业知识,包括需要更多的时间对目标进行近距离研究和制作信息。
为了减少这些问题,我们采用了一种名为 V-Triad的人工方法来自动创建网络钓鱼电子邮件,如下图所示。
V-Triad 将是一种针对特定用途的方法,它将根据高度针对性和特定的数据指导创建自动网络钓鱼电子邮件。
另一方面,近年来,随着大规模语言模型(如下图所示)的出现,人们对研究如何利用 LLM 制作钓鱼邮件的兴趣与日俱增。
许多研究人员推测,这些 LLM 将被用于在未来创建恶意网络钓鱼电子邮件,因为 V-Triad 只是手动创建网络钓鱼电子邮件的辅助工具,而 LLM 可以自动创建网络钓鱼电子邮件。
另一方面,关于使用 LLM 创建网络钓鱼电子邮件的现有研究只侧重于分析创建的电子邮件,而没有研究在现实世界中向人类发送电子邮件的情况。
在此背景下,本文采用了以实际大学生为参与者的实验设计,对使用 LLM 和 V-Triad 制作的钓鱼电子邮件进行了比较。
实验
本文进行的实验包括四个阶段
- 通过在哈佛校园及周边地区张贴传单招募参与者,然后收集参与者的个人背景信息。
- 对照组(手动传统方法)、LLM (GPT-4)、V-Triad 和 LLM (GPT-4) + V-Triad 制作钓鱼电子邮件。
- 向参与者发送了钓鱼电子邮件,随后要求每位参与者以开放式回答的方式回复电子邮件内容。
- 实验结果分析
本节将对每个阶段进行说明。
征集参与者
实验最初通过在哈佛大学校园及周边地区张贴传单,以及向各种大学相关团体(如俱乐部)发送招募电子邮件的方式招募参与者。
在报名参加研究时,参与者被要求回答有关自己的背景信息,如参加的课外活动、最近购买的品牌和定期收到的新闻简报等。
参与者本人只被告知上述背景信息将被用于发送营销电子邮件,此时他们并未被告知他们被邀请参加钓鱼电子邮件实验本身。
然后,参与者被随机分为四组,每组都会收到一封使用不同技术制作的网络钓鱼电子邮件。
创建网络钓鱼电子邮件
在本实验中,使用四种方法创建并向参与者发送了钓鱼电子邮件:对照组(手动传统方法)、LLM (GPT-4)、V-Triad和LLM (GPT-4)+ V-Triad。
每组受命制作主要针对星巴克顾客的网络钓鱼电子邮件,使用传统方法制作的网络钓鱼电子邮件如下所示。
然后使用 LLM(GPT-4)创建一封电子邮件,为哈佛学生提供 25 美元的星巴克礼品卡,并提示 "创建一封电子邮件,为哈佛学生提供 25 美元的星巴克礼品卡"。如下图所示,为获取礼品卡创建了钓鱼电子邮件,提示为 "为哈佛学生创建一封提供 25 美元星巴克礼品卡的电子邮件"。
结果,制作出了一些高质量的网络钓鱼电子邮件,但也发现了一些问题,如没有具体提及哈佛学生。
然后根据上述 V-Triad 创建了一封钓鱼电子邮件,如下图所示。
这封邮件证实,通过在邮件中添加徽标、缩短内容和更礼貌的措辞,该邮件是可信的高质量钓鱼邮件。
最后,使用 LLM (GPT-4) 和 V-Triad 的组合方法创建了下图所示的钓鱼电子邮件。
这是一份法律硕士课程(GPT-4),提示为 "创建一封电子邮件,为哈佛学生提供价值 25 美元的星巴克礼品卡,并为他们提供访问二维码的链接,不超过 150 个字(创建一封电子邮件,为哈佛学生提供价值 25 美元的星巴克礼品卡,并为他们提供访问二维码的链接,不超过 150 个字)"。150 个字内)",然后用 V-Triad 进行修改,以提高电子邮件的质量。通过使用 V-Triad 进行修改,电子邮件的质量得到了提高。
此外,如果受试者真的按下了链接,系统会显示一个解释,大意是这封邮件不是星巴克发送的,而是属于实验的。
实验结果分析
实验结果表明,每种方法的钓鱼邮件成功率如下。
在 112 名参与者中,77 人按下了钓鱼邮件中的链接,证实 V-Triad 的成功率最高,而 V-Triad+GPT 紧随其后。
此外,在收到网络钓鱼电子邮件后,每位受试者都被要求提供开放式回答,说明他们按下或不按下电子邮件中链接的原因,作者将这些回答分为以下六组
- 可信/可疑的介绍
- 合法/可疑的拼写和语法
- 有吸引力/可疑的 CTA(有吸引力/可疑的行动呼吁)
- 理由/目的似乎合理/可疑
- 相关/不相关目标定位。
- 可信/可疑发件人
表示钓鱼邮件可信的参与者的自由文本回复分布如下图所示。
如图所示,可以看出 V-Triad 创建的钓鱼邮件的可信度最高,而 GPT 和 V-Triad+GPT 钓鱼邮件的可信度相近。
另一方面,表示钓鱼邮件可疑的参与者的自由文本回复分布如下图所示。
值得注意的是,更多参与者表示 GPT 制作的网络钓鱼电子邮件可疑,而表示对 V-Triad+GPT 制作的网络钓鱼电子邮件可疑的人数较少。
结果表明,与单纯使用 GPT-4 等 LLM 相比,将 LLM 与 V-Triad 等人为修改相结合可生成质量更高的网络钓鱼电子邮件。
摘要
结果如何?在这篇文章中,我们介绍了一篇论文,该论文通过比较由 GPT-4 自动生成的钓鱼邮件和由人类手动生成的钓鱼邮件,测试了大规模语言建模对钓鱼邮件的有效性。
本文进行的实验证明了使用 LLM 制作网络钓鱼电子邮件的有效性,但同时也发现,尽管网络钓鱼电子邮件的内容相同,但结果却因人而异。
这表明,防止用户成为网络钓鱼电子邮件受害者的 "一刀切 "方法是无效的,其结果对未来的网络钓鱼电子邮件应对措施具有重要影响。
作者介绍说,研究结果表明,他们正在寻找个性化大规模语言模型的方法,以适应每个用户的知识和认知风格,从而对抗网络钓鱼邮件,因此,未来这一研究的进展将非常有趣。
本文所介绍的模型和实验结果的详情可参见本文,感兴趣者可参阅。
与本文相关的类别