BERT可以预测一条推特的嗡嗡声!

BERT 21/11/2022

三个要点
✔️ 提出了ViralBERT，利用推文文本特征和基于用户的特征预测推文的病毒性
✔️ 该方法在F1得分和准确率方面都比基线取得了13%的表现
✔️ 消减研究发现，文本情感信息和粉丝数量是预测中最有效的特征，加入标签数量会降低预测的准确性

ViralBERT: A User Focused BERT-Based Approach to Virality Prediction
written by Rikaz Rameez, Hossein A. Rahmani, Emine Yilmaz
(Submitted on 17 May 2022)
Comments: UMAP 2022
Subjects: Computation and Language (cs.CL); Social and Information Networks (cs.SI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍。

近年来，推特作为一种向用户分享和传播信息的社交网络服务，在全世界范围内得到了应用，不仅对个人，而且对所有公司的营销也变得非常重要。

在Twitter上，用户可以通过"转发"来轻松分享他们喜欢的帖子，通过将帖子传播给更多用户来加强他们的影响力。

了解一个帖子通过这种方式获得多少转发，即它能增加多少影响力，对广告商和影响者来说是非常有价值的。

本文介绍了BERT模块和RoBERTa模块，前者采用一种方法将数字特征（如标签和粉丝数量）串联到推文文本中，并通过结合文本和数字特征进行学习，后者则利用文本中的信息和引起情感反应的能力，因为这些与转发倾向有关，从而预测文本的情绪ViralBERT，通过RoBERTa模块预测一条推文的病毒性（=嗡嗡声），它只分析文本。

历史背景和问题定义

Twitter是世界上最大的社交媒体平台之一，每月活跃用户超过3亿，Twitter用户可以分享最多280个字符的文字，称为 "推文"，并发送照片、GIF和视频。

如果一条推文比其他推文得到更多的互动，并吸引了推特上更多用户的关注，它就已经病毒化了。

因此，病毒性可以用来确定趋势和话题的流行和参与度，不仅在推特上，而且在整个社会上，预测推文的病毒性是非常重要的。

然而，最近关于病毒性预测的研究很有限，这些研究集中在特定的推文子集或特定的用户，而不是来自整个用户群的推文，并且没有概括到用户或推文的整体。

此外，病毒性预测受许多不容易量化的因素影响，如用户亲和力、内容的创造性（推文内容）和与当前社会状况的相关性 ，再加上大多数推文从未被转发，因此很难创建大型数据集 。这使得它成为一个非常具有挑战性的问题。

本文件的概要。

为了解决这些问题，本文建立了一个由33万条推文组成的样本数据集，并测试了使用BERT架构是否可以预测推文的病毒性这一问题。

数据集

本研究的数据集由Twitter API v2使用Python收集，仅限于八个主题： 加密货币、电视和电影、宠物、视频游戏、手机、COVID-19、足球和K流行，并限于八个主题。

该研究还从原始（非转发的帖子）英语推文中收集关于文本、创建时间、标签数量、提及次数和推文来源客户，以及从用户中收集关于追随者、关注者和状态的信息。

此外，转发、喜欢、回复和引用的数量在推特创建24小时后被检索出来。(这是因为现有的研究表明，一条推特的病毒性在这个时候已经达到了极限）。

病毒伯特

本文提出的ViralBERT架构如下图所示。

该模型使用BERT从结合推文文本和相关数字特征（标签、提及、关注者、状态和文本长度）的特征中输出，并使用RoBERTa输出推文文本的情感特征的概率分布，即通过将其送入分类层来预测病毒性。

BERT模块

BERTweet是BERT中使用的预训练模型，在8.5亿条推文语料库中进行了微调，并针对用户推文中使用的各种主题和语言进行了优化。

推文文本T及其相关的数字特征（_N0,_N1,...）。,Ni_）串联起来，输出_hB输入到分类层。

这可以用下面的公式表示。

RoBERTa模块

现有研究表明，推文的情感特征对推文的传播有直接影响，该模型采用了基于RoBERTa的预训练模型对推文文本进行情感分析。

该模型的输出是来自推文文本的负面、中性和正面情绪的softmax概率分布S，它以与上述BERT输出相同的方式输入到分类层。

分类层

BERT的输出_hB和RoBERTa的输出S被串联起来作为分类层的输入，输出为以下公式

通过对这一输出应用softmax函数，可以得到病毒性的概率。

实验

本文将ViralBERT的性能与现有研究中为类似任务开发的下列基线方法进行比较

逻辑回归（Logistic Regrassion）：采用牛顿法进行梯度优化，这种技术已被用于预测流行信息。
支持向量机（SVM）：采用铰链损失和SGD优化，这种方法被用来预测Twitter上新引入的标签的受欢迎程度，并评估转发能力。
决策树分类器：使用吉尼杂质得分进行无最大深度分类。这种方法被用来评估转发率。
随机森林（Random Forest Classifier）：使用100棵没有最大深度的树。这一基线是基于现有的研究，重点是对转发数量和转发可能性的时间性预测。

此外，还有两条基线，即只使用模型的数字特征的_MLPNum和只使用文本特征的_{ViralBERTText}，被用来测试这些特征的表现。

实验结果如下表所示。 (最好的结果以黑体字显示）。

这个实验表明，

当ViralBERT只用文本特征进行训练时，与普通的ViralBERT相比，它没有达到最佳性能。
当只用数字特征进行训练时，性能明显好于只使用文本时，表明数字特征也是预测病毒性的一个重要因素。
通过在文本和数字特征的串联输入上对ViralBERT进行微调，并训练分类层，我们已经能够实现比基线更高的评价指标。

此外，还进行了实验，通过从输入中删除特征并比较模型的性能来衡量每个特征对ViralBERT的重要性。

下表显示了当每个特征从输入中被消除时与ViralBERT的比较结果。

从这个实验中得到了以下观察

与其他特征相比，从网络中消除情感（推文的情感特征）或追随者（追随者的数量）会显著降低模型的性能。
- 这很直观，因为拥有更多追随者的用户有可能通过一条推特获得更多关注
- 引起用户更大情绪反应的推文也可能获得更多的转发
提及 "和 "关注 "也会影响表现，尽管其程度比上述两个特征要小。
- 这被认为是由于更受欢迎的用户倾向于不关注其他人（更高的追随者/关注比例）。
- 人们还认为，提及次数多的推文不太可能被转发，因为它们的可读性较差，而且使用的空间可用于为用户提供有用信息。
最令人惊讶的结果是，消除Hashtags后，模型的性能略有提高
- 这意味着BERT通过增加这个特征可能从输入中学习到更差的表示，因为它与病毒性无关。

这些结果应该在更全面的研究中进一步调查，这些研究涉及更大的数据集和测试各个特征之间的相互作用，未来的一个挑战是了解为什么这些对性能有负面影响。

摘要

情况如何？在这篇文章中，我们介绍了ViralBERT，这是一种基于BERT的方法，利用推文的文本和数字特征来预测推文的病毒性。

虽然该模型在预测病毒性方面取得了比现有方法更好的准确性，但仍存在一些问题，如本文所使用的数据集的不平衡性，通过消除数据集中存在的类异质性，也许可以进一步提高预测准确性。此外，由于发现追随者的数量会影响病毒性，通过收集不太受欢迎的用户的高病毒性的推文，可能会创造一个更好的数据集。此外，还有可能将这一模型用于不同的社会媒体，以预测各种媒体的病毒性，因此未来的发展是非常令人振奋的。