最后，一个能听懂讽刺性对话并能生成说明性文本的人工智能!

自然语言处理 06/07/2022

三个要点
✔️ 提出SED（对话中的讽刺解释），这是一个新颖的任务，旨在为讽刺句子生成解释文本，揭示讽刺的意图。
✔️ 创建了一个新的数据集，WITS（Why Is This Sarcastic），它扩展了现有的讽刺识别任务的数据集，并对其进行人工注释。
✔️ 设计了模态感知融合（MAF）作为WITS的基准，通过多模态语境感知的Attention，实现了对对话中讽刺性表达的解释。

When did you become so smart, oh wise one?! Sarcasm Explanation in Multi-modal Multi-party Dialogues
written by Shivani Kumar, Atharva Kulkarni, Md Shad Akhtar, Tanmoy Chakraborty
(Submitted on 12 Mar 2022)
Comments: Accepted in ACL 2022.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

人类言语中的讽刺对于促进交流是必不可少的，例如，表达幽默或批评，表达惊讶或强调期望和现实之间的差异，对于对话代理人来说，理解这些讽刺的台词是非常重要的，并且需要理解并提供适当的回应。

尽管在对话系统领域已经进行了从文本和多模态信息中识别讽刺性表达的研究，但如果对话代理要模仿更像人类的行为，不仅要识别讽刺，而且要从整体上理解讽刺性表达的能力是至关重要的。

本文提出的三个主要贡献是

一个新的任务，即对话中的讽刺解释（SED），被提出来为讽刺性对话生成解释文本，并揭示讽刺的意图。
创建一个新的数据集，即Why Is This Sarcastic (WITS)，它扩展了现有的讽刺识别任务数据集，并由人类手动注释。
设计了模态感知融合（MAF）作为WITS的基准，通过多模态语境感知关注（Attention），实现对对话中讽刺性表达的解释。

让我们依次看一下它们。

SED（对话中的讽刺解释）概述。

下图显示了一个SED样本，即本文提出的为讽刺句子生成解释性文本的任务。

这里的对话由两个人物的四句话组成，分别是_u1、_u2、_u3和_u4，最后一句话_u4包含讽刺性的表达。(数据集是印地语的，蓝色的文字是英文翻译)。

在SED中，如图中的讽刺解释，任务是通过汇总对话历史、多模态信息，如语句的语调和面部表情，以及关于说话人的信息，为含有讽刺性表达的语句生成解释文本。

该描述包含四个属性

讽刺来源：在对话中被讽刺的人。
讽刺对象：讽刺所针对的人/事
行动词：用于描述讽刺方式的动词（如嘲弄、侮辱）。
说明：对场景的描述，以帮助理解讽刺。

在上面的例句中，"Indu暗示Maya不好看"，Indu是 "讽刺来源"，Maya是 "讽刺目标"，暗示是 "动作词"，不好看是""。描述"。

WITS（Why Is This Sarcastic）概述。

下一节将介绍新的数据集--WITS。

到目前为止，Sitcom（情景喜剧），一个包含日常生活中人类行为和举止的数据集，已经被用于识别讽刺性表达的任务。

然而，由于它不是一个适合SED的数据集，本文提出的任务是为含有讽刺性表达的语句生成解释性文本，作者创建了一个新的数据集，名为WITS（Why Is This Sarcastic）。

WITS的细节将如下。

扩展现有的数据集，即MASAC数据集（Bedi等人，2021年），并以解释性的文本对其进行扩充。
- MASAC是一个多模态的印地语和英语对话数据集，由印度流行的电视节目汇编而成。
原始数据集包含45集电视连续剧，但作者又增加了另外10集及其翻译。
- 然后从这个扩展的数据集中手动选择包含讽刺性表达的语料
最终，一个包含2240个讽刺性表达的对话数据集被创建。
- 每一个都有人工注释的描述，以解释其讽刺意味。

MAF（多模态感知融合）概述。

为了将多模态信息顺利整合到BART架构中，本文介绍了MAF（多模态感知融合），由MCA2（多模态语境感知注意）和GIF（全球信息融合）组成。多模态感知融合）由MCA2（多模态语境感知注意）和GIF（全球信息融合）组成。

对于包含讽刺性表达及其视听线索的文本输入对话，MCA2适当地将音频和视频等多模态信息纳入文本表述中，而GIF的作用是将文本表述与嵌入的多模态信息结合为一体。

下图显示了本文中模型的架构。

MAF中的多模态融合块使用MCA2（多模态语境感知注意）来获取视听线索，然后将视听线索和使用GIF（全球信息融合）获取的文本进行融合。GIF（全球信息融合）块用于融合使用GIF（全球信息融合）块获得的视听线索和文本。

这个模块的主要优点是，它可以很容易地集成到BART和mBART的多个层级，从而实现各种多模态互动的集成。

定性分析。

实验采用了五个主要模型

BART（Lewis等人，2020）：一个具有标准机器翻译架构的模型，结构上是BERT的双向转化器和GPT的自动回归转化器的组合。本文采用了它的一个基本版本
mBART（Liu等人，2020年）：一个遵循与BART相同的架构和目标的模型，在不同语言的大型单语语料库上进行训练
MAF-TAB_：基于BART的模型，包含有音频提示的MAF模块
_MAF-TVB：基于BART的模型，在MAF模块中纳入视觉线索
_MAF-TAVB：基于BART的模型，包含有视听提示的MAF模块

下表对表现最好的模型_MAF-TAVB和一些相应的BARTs进行了抽样。

结果显示，。

(a) 提供了一个有改进余地的例子，因为BART和_MAF-TAVB产生的描述不一致，都不适合对话的背景
(b)显示了一个例子，_MAF-TAVB能够生成符合对话主题的解释文本，与BART生成的解释文本不同。
(c)显示了一个例子，说明_MAF-TABB能够生成比BART更好地捕捉讽刺性表达的描述。

因此，可以证实，融合了听觉和视觉信息的MAFs比BARTs更恰当地理解讽刺性表达，并能产生解释性文本。

人的评价

由于提议的SED任务是一个生成性任务，它也需要人类对生成的结果进行评估。

因此，本文的USER研究是在以下条件下进行的

从测试集中选择了30个实例，并在25名评估人员的帮助下进行了用户研究。
评价者得到了包含讽刺性表达的对话记录和带有音频的视频片段，并被要求对生成的描述进行评分。
在观看完视频片段后，每个评分者必须根据以下因素对生成的描述进行评分，评分标准为0至5（5为最佳）。
- 连贯性：评估解释的组织性和结构性有多好
- 与对话有关：评估所产生的描述是否与对话的主题相一致
- 与讽刺有关：衡量对话是否描述了与对话中包含的讽刺性表达有关的事情。

下表显示了上述五个模型中每个类别的平均得分。