赶上最新的AI论文

建议是否也能影响意识形态:新闻建议侧重于不同主题之间政治立场的差异。

建议是否也能影响意识形态:新闻建议侧重于不同主题之间政治立场的差异。

建议

三个要点
✔️ 新闻推荐,旨在消除政治立场(自由派或保守派)偏见方面的过滤泡沫
✔️ STANPP,其目标函数旨在减少决定新闻中政治立场的词语的影响,增加新闻中特定主题词语的影响提出了多任务学习的MTANPP和两者结合的MTANPP
✔️ 使用大规模语言模型(BERT)进行了实验,将新闻推荐作为用户偏好与否的二元分类

Reducing Cross-Topic Political Homogenization in Content-Based News Recommendation
written by Karthik Shivaram , Ping Liu , Matthew Shapiro , Mustafa Bilgic , Aron Culotta
(Submitted on Sep 2022)
Comments: RecSys
 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

新闻应用中的推荐功能的重要性与日俱增。新闻推荐根据内容、用户兴趣和主题性等各种因素,对每天发表的大量文章进行提取和排名。只显示选定的文章,从而消除了用户的信息过载。

然而,对用户兴趣给予太多权重的推荐会导致过滤泡沫的产生。过滤泡指的是这样一种现象:由于基于用户兴趣的推荐,如搜索记录和访问记录,只有用户想看的信息被推荐,而用户被隔离在他或她不想看的或与他或她的想法不一致的信息之外,导致他或她的想法和价值观像一个 "泡 "一样被隔离。过滤器泡沫是由帕里瑟在2011年定义的。从那时起,它就在推荐领域引起了积极的争论,是新闻推荐中最重要的话题之一。

本文提出了一种新的方法来过滤新闻推荐中的泡沫,特别是关注政治立场。

新闻推荐的重点是专题之间政治立场的差异。

基于用户兴趣的新闻推荐会造成推荐结果的偏差,但有不同类型的偏差,如情感极性和文章主题。在这项研究中,我们特别关注政治立场,即自由派或保守派的偏见。

这种政治立场和观点往往被误认为在任何议题上都是统一的,如果确定了个人,如 "这个人是保守派 "和 "那个人是自由派"。然而,对美国人的调查表明,许多人根据不同的主题采取不同的政治立场,例如 "在人口堕胎问题上是自由派,但在移民问题上是保守派"。

这里的问题是,由于新闻推荐,对新出现的话题的政治立场可能会受到以前访问记录的影响和偏向。

例如,假设一个从过去的访问历史中得知喜欢对枪支控制持保守立场的文章的用户被推荐了一篇关于人口流产的新话题的文章。在这种情况下,枪支管制文章的访问记录会推断出 "对保守文章的偏好",而推荐结果也会反映出人口流产文章的这种倾向。然而,如果用户更喜欢在人口流产问题上持自由主义立场的文章,那么这个推荐就是一个错误的推荐,而不仅仅是由于政治立场的多样性的丧失。

这种由新闻推荐引起的不同主题之间的政治立场的偏差和同质化被作者定义为跨主题同质化。本文旨在解决这一问题。

本研究提出了两类基于注意力的深度学习模型。首先是一个目标函数,它惩罚那些由作者独立收集的、表征政治立场的词,即自由派或保守派,这样它们就不太可能影响预测结果。另一种方法是对特定主题的词汇进行加权。还测试了两种方法的组合。

作者使用了一个由90万个标记的政治立场组成的数据集来测试。'用户是否喜欢某个特定的文章?这些建议是通过二元分类法制定的,称为。'更喜欢话题A的自由派文章,更喜欢话题B的保守派文章',假设用户在两个话题之间有相反的政治立场。

关于新闻推荐的相关研究。

本节对本研究的相关研究进行了介绍。

首先,介绍关于解决新闻推荐中的偏见的研究。这项研究的重点是一种新的偏见:政治立场偏见。然而,还有许多其他类型的新闻推荐偏差,如文章流行度偏差(Popularity bias)和曝光度偏差(Explosure bias)。这些偏见导致了推荐项目的同质化,导致了过滤气泡和回音室等现象。推荐结果中的政治立场偏差会导致政治上的两极分化,公众舆论分为自由派和保守派。这种趋势在新闻推荐中尤为明显,人们提出了各种方法来实现新闻推荐结果的多样性。

接下来,对现有的新闻推荐方法进行了介绍。许多新闻推荐的方法已经被提出,但近年来,基于深度学习的模型被认为表现特别好。许多现有的基于深度学习的新闻推荐方法都是基于注意力的,其中用户和新闻表征(向量)都是通过学习以前的点击记录来预测未知项目的点击率。近年来,预训练的语言模型,如BERT,也被用来提高用户和内容表征的性能。

因此,可以看出,近年来关于新闻推荐方法、提高多样性等方面的讨论非常活跃。然而,本研究提出的政治立场的多样性,特别是关注不同主题间政治立场差异的新闻推荐,还没有人提出。

问题设置和数据集

解决问题

在这项研究中,文本推荐被认为是一种简单的二元分类,"对单个用户来说,预测用户喜欢某篇文章的概率(反馈标签)"。

文章:$a = \{a_1, ... , a_n\}$
反馈标签:$ y={y_1,...}。 , y_n\} ( y = 1 → 偏好, y = 0 → 不偏好) $

在这里,文章列表$a$就由话题1和话题2两种类型组成,其中反馈标签被标记为'用户喜欢话题1上的保守派文章和话题2上的自由派文章',以模拟一个在话题之间有相反政治立场的用户。主题2,用户更喜欢自由派的文章",以模拟一个对主题有相反政治立场的用户。

来自41个新闻来源的90万条新闻

该实验利用了从Liu等人那里获得的来自41个不同新闻网站的900,000篇新闻文章的数据集。这些新闻文章用${-2,-1,0,1,2}$和五个级别的政治立场来标示。-2是最自由的,+2是最保守的。这项研究使用了该数据集中的100,000份摘录。

实验数据集建设工作。

这10万篇提取的新闻文章被贴上了政治立场的标签,但没有贴上主题。因此,在本研究中,通过无监督聚类,使用以下程序提取了主题。

1.通过tf-idf对新闻文章进行特征提取
2.通过k-means方法将100,000个数据无监督地分类为100个类别

从以这种方式获得的无监督分类结果中,只提取了包含400多篇文章的聚类,但每个聚类中政治保守派和自由派文章的数量相等。

结果,最终得到了45对不同的聚类(共90个聚类)。为了检查它们是否根据主题正确分类,研究人员进行了目测,发现涉及的主题包括 "枪支管制"、"移民问题 "和 "医疗保健问题"。

考虑到政治偏好偏差的新闻推荐(拟议方法)。

基准1:单一任务网络(STN)

如前所述,在这项研究中,文本推荐是基于对单个用户是否喜欢或不喜欢某篇新闻文章的二元分类。近年来,最常用的文本分类方法是使用预先训练好的语言模型。在这项研究中,使用BERT作为推荐基线进行了二元分类的实验。以下是对这些模型的概述。

基线2:单一任务注意网络(STAN)

作为另一个基线,本研究还试验了一个在BERT中加入注意力层的模型:BERT的输出(不仅仅是CLS)被输入到一个线性转换层,其输出被一个softmax函数归一化,作为注意力权重。

注意力权重然后乘以BERT的输出向量。这允许以影响预测准确性的方式对单词进行加权。

建议的方法1:带极化惩罚的单一任务注意网络(STANPP)。

从这里,作者解释了他们提出的方法:STANPP将STAN用于深度学习模型,但设置了一个目标函数(损失函数),对可能影响政治立场的词语进行惩罚。在本节中,我们将关注两个方面:提取能影响政治立场的词语和损失函数。

第一步是描述用于提取可能影响政治立场的词语的方法。如前所述,作者使用的数据集标明了对某篇文章的政治立场(自由派或保守派)。有各种方法可以提取影响特定标签的词语,但在这里,通过对影响 "标签 "的 "词语 "进行卡方检验,提取了200个词语。以下是一个例子。

下一步是设置一个目标函数,对影响政治立场的词语进行惩罚。在这里,BERT被用来获得前面提取的影响政治立场的R词的嵌入表示。然后,计算获得的R词的嵌入表示和STAN输出的向量之间的相似度,并将计算结果作为误差函数之一,这样文章的政治立场就不会影响预测。

这是对STANPP的描述。

建议的方法2:多任务注意网络(MTAN)

下一节介绍了另一种提议的方法,即MTAN,其目的是增加那些不是政治立场,而是决定文章主题的词语对预测结果的影响。

现在,估计话题决定性词语是不可能的,因为研究人员使用的数据集没有标明话题,如政治立场。因此,我们将同样用于训练word2vec的 "二元负向采样 "应用于预测文章标题(头条)中的单词的任务。对于每篇文章$a_i$,任务预测是否包含一个特定的词$h_i$(从标题中提取并屏蔽)。预测如下。

具体来说,将标题中的$h_i$候选词列表输入BERT,以获得表示向量$r_{h_i}$。接下来,它被乘以文章的注意权重$u_{it}$,得到$g_i$。然后通过线性转换来预测$h_i$是否包含在$a_i$的标题中。

建议的方法3:带极化惩罚的多任务注意网络(MTANPP)。

最后是MTANPP,它将STANPP和MTAN结合起来,在MTAN中加入STANPP自身的目标函数,可以表示为

实验结果

评估测试

从这里开始,评估实验是在前一章所描述的模型的数据集上进行的。该数据集包括一个文章列表a和一个表示用户是否喜欢每篇文章的标签y。文章列表a由两个主题和标签y组成,从而使两个主题之间的政治立场不同。

两个课题1和2的比例是90%和10%。这是因为本研究的目的之一是防止主题2在出现新的主题2文章时受到主题1文章的政治立场的影响。

对创建的所有45个配对进行了实验,并计算了验证结果的平均值。除了刚才描述的模型外,我们还用UNBERT进行了实验,这是一种在以前的研究中提出的获取新闻推荐的文本表示方法,作为比较。

结果。

以下是评估的结果。

评估结果显示,所提出的方法,如STANPP、MTAN和MTANPP,对主题2的准确率往往比基线STN和STAN高3%-6%他们还发现,他们对题目1的准确率比题目2的准确率高1%~8%。

摘要

在本文中,我们提出了一种基于注意力的新闻推荐方法,以防止推荐项目的同质化,重点关注新闻文章的政治立场。我们将提出的方法应用于两个主题之间政治立场相反的用户数据集,并发现基线比STN和STAN的性能更高。

未来的问题包括。

  • 进行了一项用户研究,以检验所提出方法的有效性。
  • 需要更多地关注模型的解释论证
  • 数据是从几个新闻网站上收集的,这可能会导致对文章的标记出现偏差。

这些措施包括。

滤泡是推荐系统领域的一个重要问题。希望在未来,考虑到这种政治立场多样性的推荐系统能够在现实世界中实施。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们