
首个利用 LLM 检测假新闻的框架!
三个要点
✔️ 提出了利用 LLM 自动检测假新闻的新框架 STEEL
✔️ 提供开放源代码,无需复杂的数据处理或模型训练即可立即使用
✔️ 在三个真实世界数据集上进行的大规模实验证明了该框架的证明了其有效性。
Re-Search for The Truth: Multi-round Retrieval-augmented Large Language Models are Strong Fake News Detectors
written by Guanghua Li, Wensheng Lu, Wei Zhang, Defu Lian, Kezhong Lu, Rui Mao, Kai Shu, Hao Liao
(Submitted on 14 Mar 2024)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
近年来,假新闻的泛滥对政治、经济和整个社会都产生了深远的负面影响,为了解决这一问题,人们早已开发出了各种假新闻检测方法。
另一方面,这些现有方法的缺点是,它们通常从维基百科等静态资料库中检索信息,因此无法处理新的新闻和索赔。
因此,最近有人开始利用大型语言模型(LLM)的卓越推理和生成能力来检测此类假新闻。
然而,与传统方法一样,这些基于 LLM 的解决方案也存在信息过时的缺点,并面临低质量信息检索能力和上下文长度限制等挑战。
在此背景下,本文提出了第一个利用 LLMs 的推理能力进行自动信息检索,从而利用 LLMs 检测假新闻的框架--STEEL。
钢材概述
LLM 已在多个领域展现出非凡的能力,包括利用RAG(Retrieval-Augmented Generation,检索增强生成)检测假新闻,这是一种从庞大的外部知识库中检索相关文档的方法。
然而,也存在一些挑战,如依赖有限数据源的局限性,以及在瞬息万变的新闻环境中进行实时更新的困难。
本文提出的STEEL(用大语言模型增强的战略检索)是一个基于多轮 LLM 的 RAG 框架,它通过搜索模块和搜索引擎直接从互联网上检索证据、它解决了这些难题。
下图显示了钢的全貌。
如图所示,STEEL 主要包括两个主要模块,即检索模块和推理模块,这两个模块被整合成一个综合的再研究机制框架。
我们将逐一进行解释。
检索模块
检索模块通过搜索引擎搜索可确定为假新闻的证据来源,并根据相似性对检索到的文件和输入信息(即 "权利要求")进行排序。
该源代码实施了基本的过滤机制,并根据现有研究使用 1044 个已知假新闻网站的列表作为过滤器。
推理模块
从网络上检索到的可确定为假新闻的信息源被汇总为提示信息,并提供给 LLM 进行推理。
然后,LLM 会根据给定的信息源进行评估,包括决定是否有必要重新搜索,并输出true(真)、false(假)或 NEI(信息不足 = 信息不够)的结果。
再搜索机制
如果上述 "推理 "模块产生了下图所示的 "NEI",就会判定没有足够的信息来确定新闻是假的,并重新进行调查。
重新审查首先会合并在初始搜索中收集到的资料来源,并将其添加到名为"既定证据 "的资料库中以供参考。
接下来,会设置"更新查询",目的是检索更多相关信息,并将新信息添加到查询中。
其机制是,通过重复这种方法,模型逐渐建立起判断假新闻的证据体系,并提高模型辨别新闻真伪的能力。
实验
为了评估 STEEL 的性能,我们在三个真实世界的数据集上进行了广泛的实验,其中包括两个英文数据集LIAR 和PolitiFact,以及一个中文数据集CHEF。(这些数据集分为真实新闻和虚假新闻两类)。
此外,本实验共使用了 11 个模型,包括 7 个基于证据的方法和 4 个基于 LLM 的方法,如下所示。
- 证据基础(G1):七个: DeClarE、HAN、EHIAN、MAC、GET、MUSER和 ReRead。
- 基于 LLM(G2): GPT-3.5-Turbo、Vicuna-7B、WEBGLM和 ProgramFC。
假新闻检测是一个二元分类问题,以F1、精确度、召回率、F1 宏和 F1 微作为评估标准。
实验结果如下表所示。
该表证实,在所有方法中,STEEL 的得分最高,在三个真实世界数据集中,F1 宏观和 F1 微观得分都提高了 5%以上。
从这个实验中可以看出,STEEL 在检测假新闻方面非常有效,在推理和准确性方面都有显著优势。
摘要
结果如何?在这篇文章中,我们介绍了一篇提出 STEEL 的论文,这是第一个利用 LLMs 的推理能力进行自动信息检索,从而利用 LLMs 检测假新闻的框架。
虽然本文进行的大规模实验表明,STEEL 的性能优于现有的假新闻检测方法,但本文仅涉及文本数据,这一点令人担忧。
鉴于假新闻的复杂性,有必要扩展该框架的功能,使其今后能够整合文本、图像、视频和音频中包含的信息。
另一方面,解决这些问题不仅能提高假新闻检测的准确性,还能提高新闻的可靠性。
本文所介绍的框架和实验结果的详情可参见本文,有兴趣者可参阅。
与本文相关的类别