剖析网站和受众之间的关系，可以发现假新闻和政治偏见！这也是一个很好的例子！

GNN 12/04/2023

三个要点
✔️ 提出了一个图形学习模型，通过模拟各网站的受众重叠情况来预测文章的真实性和政治偏见
✔️ 利用Alexa，创建了一个代表网站和受众之间关系的大规模图形
✔️ 在两个标准数据集上，现有的与模型相比，取得了明显的准确性提高

GREENER: Graph Neural Networks for News Media Profiling
written by Panayot Panayotov, Utsav Shukla, Husrev Taha Sencar, Mohamed Nabeel, Preslav Nakov
(Submitted on 10 Nov 2022)
Comments: Accepted by ACL 2022
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

在社交网络服务迅速传播的今天，假新闻的社会影响已经变得巨大，而近年来对这种恶意假新闻的检测更是引起了人们的关注。

然而，虽然有很多以文本为重点的研究，但很少有研究将媒体作为一个整体，而不是单个文本或文章进行分析。

本文提出了一种更粗粒度的假新闻检测解决方案，并介绍了GREENER（新闻媒体图谱网络），这是一种通过从受众重叠处建立模型并使用三种不同的图谱学习模型来剖析新闻媒体之间关系的方法。本文介绍了所提出的方法--剖析）。

虚假新闻研究的历史。

如上所述，现有的假新闻检测任务主要集中在使用自然语言处理技术分析文本内容上。

虽然这些基于文本的方法对文章的上下文分析很有用，但很难检测出文章中的主张的可信度，即使使用最先进的模型，根据数据集的不同，也只能达到65-71%的检测事实性（文章是否正确）和70-80%的检测政治偏见（文章是否正确）。问题是，根据数据集的不同，该模型在检测事实性（文章是否正确）和检测政治偏见（偏向某一政治立场的言行）方面只能达到65-71%的预测精度。

在此背景下，人们提出了几种方法来检测社交媒体平台上的假新闻，方法是捕获和比较新闻媒体追随者的信息，并剖析这些追随者如何用他们的评论和帖子回应目标新闻媒体的内容。有几种方法被提出来，通过捕捉和比较新闻媒体追随者的信息，并剖析这些追随者在评论和帖子方面对目标新闻媒体内容的反应，来预测新闻媒体之间的相似性。

这些研究的基础是，如果一群人对一个网站有共同的兴趣，这些网站应该在某种程度上是相似的，不仅可以用文字和视觉特征来检测事实性低的网站，还可以用目标网站使用与网络设计数据相关的特征来检测事实性较差的网站，可以进行更全面的分析。

本文对这些方法进行了扩展，提出用基于Alexa siteinfo工具（Alexa的一个特征）和三种不同的图形学习方法的大规模模型来模拟受众的相似性。

GREENER - 用于新闻媒体分析的图形神经网络

本文中用于创建图表的Alexa siteinfo工具是一个允许用户输入目标网站地址的工具，并根据受众重叠度返回四到五个与输入网站高度相似的网站列表。

例如，如果你输入wsj.com网站的地址，你会得到类似的网站和它们的类似分数，如{marketwatch.com 39.4 cnbc.com 39.4 bloomberg.com 35.9 reuters.com 34.5 }。{marketwatch com 39.4 cnbc com 39.4 bloomberg com 35.9 reuters com 34.5 }。

该论文使用这些网站对和重叠分数来创建下图所示的图表，将网站表示为节点，将两个网站的受众之间的重叠关系和他们之间的重叠程度表示为边。

这些图是使用由服务人员手动分类的列表创建的，以确定网站信息的真实性，并通过在上述初始图的基础上重复上述步骤进行扩展，以增加新的节点和边，从而更详细地确定网站之间的关系。下表显示了这一过程的结果。

结果是一个大的图表，显示了每个网站和其受众之间的关系，如下图所示。(红色：事实性低的网站，绿色：事实性低的网站，白色：事实性模糊或未知的网站）。

从上面的大规模图表可以看出，分布情况是这样的：事实性高和低的网站可以明显区分出来。

图上的表征学习

在本文中，我们对以下三种模型进行了实验，目的是学习上述大规模图中的节点和边的表示方法。

Node2Vec：最早的图学习框架之一，该模型通过对每个节点的固定最大长度的随机行走进行采样，为图生成序列。
图卷积网络（GCN）：图神经网络模型之一，而Node2Vec只基于图结构进行嵌入，GCN对所有相邻节点进行卷积运算，允许对图结构和节点/边进行嵌入。GCN通过对所有相邻节点进行卷积运算，可以对图结构和节点/边都进行嵌入。
GraphSAGE：图形神经网络模型之一，与GCN不同，它只对采样的邻接节点的一个子集进行卷积操作。

使用这三种图表示学习算法，我们能够获得图中每个节点（网站）的低维向量表示（Node2Vec为512，GCN和GraphSAGE为128）。

实验和评估

本文使用了两个数据集，即EMNLP-2018（Baly等人，2018）和ACL-2020（Baly等人，2020），这两个数据集被用于现有的研究中，将本实验中得到的模型与现有模型进行比较。

这两个数据集都有事实性和政治偏见的标签，根据文章的合法性，有三个级别的事实性--高、混合和低，以及三个级别的政治偏见--升、中、右。

采用五倍交叉验证法来评估上述三个模型的单独预测和相互结合的预测准确性，使用节点嵌入和事实性和政治偏见的标签。

使用EMNLP-2018预测事实性任务的实验结果如下图所示。

因此，证实了这三个模型都比现有的模型给出了更好的准确性，特别是当这三个模型结合在一起时，给出了更高的预测准确性。

继续说，使用EMNLP-2018预测政治偏见的任务的实验结果如下图所示。

在这里，Node2Vec取得了比其他两个GNN模型更好的准确性（这可能是由于节点的稀疏性），但与事实性的预测一样，三个模型的组合带来了最高的预测准确性，证明了该方法的有效性。

摘要

它是怎样的呢？在这篇文章中，我们介绍了一篇论文，该论文提出了一个图形学习模型，通过建立一个代表网站和受众之间关系的大图，来预测文章的事实性和政治偏见，建立新闻媒体之间的受众重叠模型。

这个实验存在一些问题，比如它只限于与一个网站相似度高的前五个网站，而且对于受众少的网站来说，很可能会出现错误，这些都可以改进，以获得更好的结果。

此外，虽然这个实验只关注网站，但该图被认为对各种媒体有效，如Twitter、Facebook、YouTube和Wikipedia，该公司正在考虑创建一个更大规模的图，整合这些媒体。该研究有望对各种媒体有效，包括Twitter、Facebook、YouTube和维基百科，以期创建一个整合这些媒体的更大规模的图表。

这里介绍的模型的结构和实验结果的细节可以在这篇论文中找到，感兴趣的朋友可以查阅。