赶上最新的AI论文

BERT可以预测一条推特的嗡嗡声!

BERT可以预测一条推特的嗡嗡声!

BERT

三个要点
✔️ 提出了ViralBERT,利用推文文本特征和基于用户的特征预测推文的病毒性
✔️ 该方法在F1得分和准确率方面都比基线取得了13%的表现
✔️ 消减研究发现,文本情感信息和粉丝数量是预测中最有效的特征,加入标签数量会降低预测的准确性

ViralBERT: A User Focused BERT-Based Approach to Virality Prediction
written by Rikaz RameezHossein A. RahmaniEmine Yilmaz
(Submitted on 17 May 2022)
Comments: 
UMAP 2022
Subjects: Computation and Language (cs.CL); Social and Information Networks (cs.SI)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍。

近年来,推特作为一种向用户分享和传播信息的社交网络服务,在全世界范围内得到了应用,不仅对个人,而且对所有公司的营销也变得非常重要。

在Twitter上,用户可以通过"转发"来轻松分享他们喜欢的帖子,通过将帖子传播给更多用户来加强他们的影响力。

了解一个帖子通过这种方式获得多少转发,即它能增加多少影响力,对广告商和影响者来说是非常有价值的。

本文介绍了BERT模块和RoBERTa模块,前者采用一种方法数字特征(如标签和粉丝数量)串联到推文文本中,并通过结合文本和数字特征进行学习,后者则利用文本中的信息和引起情感反应的能力,因为这些与转发倾向有关,从而预测文本的情绪ViralBERT,通过RoBERTa模块预测一条推文的病毒性(=嗡嗡声),它只分析文本。

历史背景和问题定义

Twitter是世界上最大的社交媒体平台之一,每月活跃用户超过3亿,Twitter用户可以分享最多280个字符的文字,称为 "推文",并发送照片、GIF和视频。

如果一条推文比其他推文得到更多的互动,并吸引了推特上更多用户的关注,它就已经病毒化了

因此,病毒性可以用来确定趋势和话题的流行和参与度,不仅在推特上,而且在整个社会上,预测推文的病毒性是非常重要的。

然而,最近关于病毒性预测的研究很有限,这些研究集中在特定的推文子集特定的用户,而不是来自整个用户群的推文,并且没有概括到用户或推文的整体。

此外,病毒性预测许多不容易量化的因素影响 ,如用户亲和力、内容的创造性(推文内容)和与当前社会状况的相关性再加上大多数推文从未被转发, 因此很难创建大型数据集这使得它成为一个非常具有挑战性的问题。

本文件的概要。

为了解决这些问题,本文建立了一个由33万条推文组成的样本数据集,并测试了使用BERT架构是否可以预测推文的病毒性这一问题。

数据集

本研究的数据集由Twitter API v2使用Python收集,仅限于八个主题: 加密货币、电视和电影、宠物、视频游戏、手机、COVID-19、足球和K流行,并限于八个主题。

该研究还从原始(非转发的帖子)英语推文中收集关于文本、创建时间、标签数量、提及次数和推文来源客户,以及从用户中收集关于追随者、关注者和状态的信息。

此外,转发、喜欢、回复和引用的数量在推特创建24小时后被检索出来。(这是因为现有的研究表明,一条推特的病毒性在这个时候已经达到了极限)。

病毒伯特

本文提出的ViralBERT架构如下图所示。

该模型使用BERT从结合推文文本和相关数字特征(标签、提及、关注者、状态和文本长度)的特征中输出,并使用RoBERTa输出推文文本的情感特征的概率分布,即通过将其送入分类层来预测病毒性

BERT模块

BERTweet是BERT中使用的预训练模型,在8.5亿条推文语料库中进行了微调,并针对用户推文中使用的各种主题和语言进行了优化。

推文文本T及其相关的数字特征(N0,N1,...)。,Ni串联起来输出hB输入到分类层。

这可以用下面的公式表示。

RoBERTa模块

现有研究表明,推文的情感特征对推文的传播有直接影响,该模型采用了基于RoBERTa的预训练模型对推文文本进行情感分析。

该模型的输出是来自推文文本的负面、中性和正面情绪的softmax概率分布S,它以与上述BERT输出相同的方式输入到分类层。

分类层

BERT的输出hB和RoBERTa的输出S被串联起来作为分类层的输入,输出为以下公式

通过对这一输出应用softmax函数可以得到病毒性概率

实验

本文将ViralBERT的性能与现有研究中为类似任务开发的下列基线方法进行比较

  • 逻辑回归(Logistic Regrassion):采用牛顿法进行梯度优化,这种技术已被用于预测流行信息。
  • 支持向量机(SVM):采用铰链损失和SGD优化,这种方法被用来预测Twitter上新引入的标签的受欢迎程度,并评估转发能力。
  • 决策树分类器:使用吉尼杂质得分进行无最大深度分类。这种方法被用来评估转发率。
  • 随机森林(Random Forest Classifier):使用100棵没有最大深度的树。这一基线是基于现有的研究,重点是对转发数量和转发可能性的时间性预测。

此外,还有两条基线,即只使用模型的数字特征的MLPNum和只使用文本特征的ViralBERTText,被用来测试这些特征的表现。

实验结果如下表所示。 (最好的结果以黑体字显示)

这个实验表明,

  • 当ViralBERT只用文本特征进行训练时,与普通的ViralBERT相比,它没有达到最佳性能
  • 当只用数字特征进行训练时,性能明显好于只使用文本时,表明数字特征也是预测病毒性的一个重要因素
  • 通过在文本和数字特征的串联输入上对ViralBERT进行微调,并训练分类层,我们已经能够实现比基线更高的评价指标

此外,还进行了实验,通过从输入中删除特征并比较模型的性能来衡量每个特征对ViralBERT的重要性。

下表显示了当每个特征从输入中被消除时与ViralBERT的比较结果。

从这个实验中得到了以下观察

  • 与其他特征相比,从网络中消除情感(推文的情感特征)或追随者(追随者的数量)会显著降低模型的性能。
    • 这很直观,因为拥有更多追随者的用户有可能通过一条推特获得更多关注
    • 引起用户更大情绪反应的推文也可能获得更多的转发
  • 提及 "和 "关注 "也会影响表现,尽管其程度比上述两个特征要小。
    • 这被认为是由于更受欢迎的用户倾向于不关注其他人(更高的追随者/关注比例)。
    • 人们还认为,提及次数多的推文不太可能被转发,因为它们的可读性较差,而且使用的空间可用于为用户提供有用信息
  • 最令人惊讶的结果是,消除Hashtags后,模型的性能略有提高
    • 这意味着BERT通过增加这个特征可能从输入中学习到更差的表示,因为它与病毒性无关。

这些结果应该在更全面的研究中进一步调查,这些研究涉及更大的数据集和测试各个特征之间的相互作用,未来的一个挑战是了解为什么这些对性能有负面影响。

摘要

情况如何?篇文章中,我们介绍了ViralBERT,这是一种基于BERT的方法,利用推文的文本和数字特征来预测推文的病毒性

虽然模型在预测病毒性方面取得了现有方法更好的准确性,但仍存在一些问题,如本文所使用的数据集的不平衡性,通过消除数据集中存在的类异质性,也许可以进一步提高预测准确性。此外,由于发现追随者的数量影响病毒性,通过收集不太受欢迎的用户高病毒性的推文可能会创造一个更好的数据集。此外,还有可能将这一模型用于不同的社会媒体,以预测各种媒体的病毒性,因此未来的发展非常令人振奋的

本文所介绍的模型的结构和数据集的细节可以在本文中找到,如果你有兴趣,应该查阅。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们