赶上最新的AI论文

现在有了一个多模式模型,可以从视频中预测观众的行为!

现在有了一个多模式模型,可以从视频中预测观众的行为!

代理模拟

三个要点
✔️ 创建了内容行为语料库(CBC),这是一个由内容和相应接收者行为组成的数据集
✔️ 大型内容和行为模型(LCBM),这是一个利用行为标记训练的大规模多模态
模型行为模型 (LCBM),这是一个利用行为标记进行训练的大规模多模态模型
✔️ 在各种任务上的表现与 GPT-3.5 和 GPT-4 相当或更好

Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior
written by Ashmit KhandelwalAditya AgrawalAanisha BhattacharyyaYaman K SinglaSomesh SinghUttaran BhattacharyaIshita DasguptaStefano PetrangeliRajiv Ratn ShahChangyou ChenBalaji Krishnamurthy
(Submitted on 1 Sep 2023 (v1), last revised 8 Sep 2023 (this version, v2))
Comments: Published on arxiv.

Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

1949 年,一位名叫香农的学者发表了一篇关于信息论的论文,他在文中指出,"通信可以分为三个层次:

  1. A 级--技术问题:如何准确传达传播符号?
  2. B 级--语义问题:传达的符号如何准确地表达预期含义?
  3. C 级--有效性问题:所接受的意义对行为的影响有多大程度的有效性和可取性?

虽然电信技术的发展已经在互联网等 A 级问题上取得了重大进展,近年来大规模语言模型(LLM)也在 B 级问题上取得了重大进展,但直到现在,C 级问题在很大程度上仍未触及。

C 级问题是预测接收者的预期行为并优化交流,虽然 LLM 在许多任务中都表现出了广泛的概括能力,但这些问题的解决难度更大

本文作者指出,造成这种情况的原因之一是LLM 学习不包括 "行为代币",而"行为代币 "定义了接受者在传播中的行为,如分享、喜欢、点击、购买和转发的数量。

本文介绍了一种大型多模态模型--大型内容和行为模型(LCBM),它基于内容行为语料库(CBC),这是一个由内容和接收者的相应行为组成的数据集,可以使用行为标记对其进行训练,从而将 LLM 的推理范围从内容⇨Content 扩展到内容⇨Behaviour。本文介绍了大型内容和行为模型(LCBM),这是一种大型多模态模型,通过使用行为标记进行学习,可以将 LLM 的推理范围从内容⇨内容扩展到内容⇨行为

内容行为语料库(CBC)

由于大多数公开的语料库都将接收者行为从内容中删除,为了将内容和行为建模为文本到文本,本文创建了一个由内容和相应的接收者行为组成的数据集--内容行为语料库(CBC)。内容行为语料库(CBC)是一个由内容和相应接收者行为组成的数据集,目的是将内容和行为作为文本到文本进行建模。

本文使用的 Youtube 是一个包含内容和行为数据的大型公共资源,其中 Youtube 包含:(a) 频道名称、频道描述和订阅者数量;(b) 视频和创作者提供的标题和描述;(c) 点赞数、观看数和评论数。这包括用户评论和重播图形式的行为。

从这个结构来看,数据集涵盖了传播的所有五个要素--传播者信息渠道接收者效果--如下图所示。

大型内容行为模型 (LCBM)

接下来介绍本文提出的大型多模态模型--大型内容行为模型(LCBM)

LCBM 的全貌如下图所示。

本文所采用的方法与 BLIP、Llava 和 VideoLlama 等最新模型类似,都是使用 Visual Encoder (EVA-CLIP) 对图像进行编码,使用 LLM (Llama) 对文本进行编码,从而同时理解图像和文本内容。文本使用 LLM (Llama) 编码。

此外,这种方法还可以通过使用 EVA-CLIP、Uniformer 和 GMHRA 对视频帧进行编码,从而包含视频内容。

接下来,为了有效利用 LLM 的丰富语言表征,我们在 BLIP-2 Q-Former 中添加了一个线性层(LLM),通过视觉内容嵌入将视觉标记转换为语言标记。

LCBM 以基于 Llama 的 Vicuna-13B LLM 为基础,与之前的研究一样,采用两阶段学习模式。

这种学习范式在第一阶段使用 WebVid、COCO caption、Visual Genome、CC3M 和 CC12M 等数据集,使视觉编码器的嵌入与 LLM 保持一致,在第二阶段使用 Behaviour Instruction Fintuning (BFT) 对第二阶段的模型进行微调。在第二阶段,使用行为指令微调(BFT)对模型进行微调。

内容行为测试基准

为证明所提方法的有效性,本文设计了四种不同的任务,如下图所示。

每项任务的说明如下。

  1. 行为模拟:根据视频内容、标题、逐个场景描述、频道和订阅者数量以及发布日期,预测观众行为
  2. 内容模拟:给定逐个场景描述、频道信息和视频内容,根据观众行为预测内容
  3. 内容理解:以现有研究为基础,测试对内容理解的任务,如主题分类、情感分类和行动原因分类等
  4. 行为理解:让模型描述人们在内容上的行为。

对于每项任务,我们比较了五种不同的模型:LCBM、GPT-3.5、GPT-4、Vicuna-13B 和 VideoChat。

行为模拟

行为模拟实验的结果如下图所示。(绿色 = 最佳成绩,蓝色 = 次佳成绩)

值得注意的是,LCBM 模型的规模比其他模型小 10 多倍,但得分却最高,这表明它能够充分预测观众的行为。

内容模拟

内容模拟实验的结果如下图所示。

LCBM 在这项任务中取得了最佳成绩,在内容预测方面的表现优于现有模型

内容理解

内容理解实验的结果如下图所示。

在这项任务中,GPT-3.5 的表现最佳,而LCBM 在大多数评价指标上的表现次之

行为理解

行为理解实验的结果如下图所示。

LCBM 在这项任务中的表现也是最好的

实验结果表明,尽管 LCBM 的模型大小比 GPT-3.5 和 GPT-4 小 10 倍,但它在所有任务中的表现同样出色,甚至更好。

从这些结果可以推断,GPT-3.5 和 GPT-4 等大型模型的训练语料不包含行为标记,实验证明了这种方法在使用行为标记训练 LLM 方面的有效性

此外,下图举例说明了 LCBM 理解和解释本实验中观察到的观众行为的能力。

与 Vicuna 和 GPT-3.5 等现有模型相比,LCBM 能够恰当地理解观众的行为,再次证实了证明该方法有效性的结果。

摘要

结果如何?在这篇文章中,我们介绍了一篇论文,该论文提出了大型内容和行为模型(LCBM),这是一种大规模多模态模型,通过创建内容行为语料库(CBC)--一个由内容和相应接收者行为组成的数据集--并使用行为标记对其进行训练,可以将 LLM 的推理范围从内容⇨内容扩展到内容⇨行为。论文提出了大型内容和行为模型(LCBM),这是一种大规模多模态模型,通过使用行为标记进行学习,可以将 LLM 的推理范围从内容⇨ 内容扩展到内容⇨ 行为。

本文首次发现,使用在 LLM 训练数据预处理过程中被删除的行为标记(即接收者的行为)可以有效地进行内容模拟和行为模拟推理

此外,我们还创建了一个可用于未来研究的数据集,预计各种应用研究都将受到这项研究的启发,因此,我们将密切关注未来的发展。

本文所介绍的数据集和模型的架构详情见本文,如有兴趣,请查阅本文。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们