ついに皮肉なセリフを理解し、説明文を生成できるAIが登場！

natural language processing 2022年07月06日

3つの要点
✔️ 皮肉を含んだセリフに対して説明文を生成し、その皮肉の意図を明らかにする事を目的とした新しいタスクであるSED(Sarcasm Explanation in Dialogue)を提案
✔️ 既存の皮肉識別タスクのデータセットを拡張し、人の手による注釈をつけた新しいデータセットであるWITS(Why Is This Sarcastic)を作成
✔️ WITSのベンチマークとして、マルチモーダルな文脈を考慮したAttentionにより会話中の皮肉表現の説明を可能としたMAF(Modality Aware Fusion)を設計

When did you become so smart, oh wise one?! Sarcasm Explanation in Multi-modal Multi-party Dialogues
written by Shivani Kumar, Atharva Kulkarni, Md Shad Akhtar, Tanmoy Chakraborty
(Submitted on 12 Mar 2022)
Comments: Accepted in ACL 2022.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

人の会話において皮肉表現は、ユーモアや批判を表現するためや、驚きを表現したり、期待と現実の間の不一致を強調するためなど、コミュニケーションを円滑に進めるために不可欠な表現であり、対話エージェントにとってこうした皮肉なセリフを理解することは非常に重要で、皮肉を理解し適切な応答を提供する必要があります。

これまでも対話システムの領域ではテキストやマルチモーダルな情報から皮肉表現を識別する研究は行われてきていましたが、対話エージェントがより人間らしい行動をエミュレートするためには、皮肉を識別するだけでなく、皮肉表現を全体的に理解する能力が必要不可欠です。

本稿で紹介する論文の主な貢献は以下の3つになります。

皮肉を含んだセリフに対して説明文を生成し、その皮肉の意図を明らかにする事を目的とした新しいタスクであるSED(Sarcasm Explanation in Dialogue)を提案
既存の皮肉識別タスクのデータセットを拡張し、人の手による注釈をつけた新しいデータセットであるWITS(Why Is This Sarcastic)を作成
WITSのベンチマークとして、マルチモーダルな文脈を考慮したAttentionにより会話中の皮肉表現の説明を可能としたMAF(Modality Aware Fusion)を設計

順番に見ていきましょう。

SED(Sarcasm Explanation in Dialogue)の概要

下図は、本論文で提案された皮肉を含んだセリフに対する説明文を生成するタスクであるSEDのサンプルになります。

ここでの会話は、2人の登場人物によるu₁, u₂, u₃, u₄の4つの発言から構成されており､最後の発言u₄が皮肉表現を含んだ発言になります。(データセットはヒンディー語で、青字は英語による翻訳文になります)

SEDでは、図のSarcasm Explanationのように、会話履歴、発言のイントネーションや顔の表情などのマルチモーダル情報、speakerの情報を集約し、皮肉表現を含んだ発言に対して説明文を生成することを目的としたタスクとなっています。

説明文には、以下の4つの属性が含まれています。

Sarcasm Source : 対話の中で皮肉を言っている人物
Sarcasm Target : 皮肉が向けられている人/物
Action word : 皮肉がどのように行われているかを説明するために使用される動詞(mocks(嘲笑う)、insults(侮辱する)など)
Description : 皮肉を理解するのに役立つシーンに関する説明

上の例文「Indu implies that Maya is not looking good.」では、Induが"Sarcasm Source"、Mayaが"Sarcasm Target"、impliesが"Action word"、is not looking goodが"Description"にあたります。

WITS(Why Is This Sarcastic)の概要

次に、新規データセットであるWITSについて解説します。

これまで、皮肉表現を識別するタスクにおいては、日常生活における人間の行動やマナーが収録されたデータセットであるSitcom(Situational comedies)が用いられていました。

しかし、本論文で提案された皮肉表現を含んだ発言に対する説明文を生成するタスクであるSEDに適したデータセットではないため、筆者はWITS(Why Is This Sarcastic)と名付けた新しいデータセットを作成しました。

WITSの詳細は以下の通りになります。

既存のデーセットであるMASACデータセット(Bedi et al., 2021)を拡張し、説明文で補強する
- MASACはインドの人気テレビ番組からコンパイルされた、マルチモーダルなヒンディー語と英語の対話データセットである
元のデータセットにはテレビシリーズの45エピソードが含まれているが、筆者達はさらに10エピソードを追加し、その翻訳文も追加
- その後、この拡張されたデータセットから皮肉表現を含んだ発話を手動で選択する
最終的に、2240個の皮肉表現を含んだ対話データセットが作成された
- これらには、それぞれにその皮肉を解釈するための説明文が手動でアノテーションされている

MAF(Multimodal Aware Fusion)の概要

本論文では、マルチモーダルな情報をBARTのアーキテクチャにスムーズに統合する事を目的に、MCA2(Multimodal Context Aware Attention)とGIF(Global Information Fusion)からなるMAF(Multimodal Aware Fusion)を導入しました。

テキスト入力された皮肉表現を含んだ対話とそのaudio-visual cuesに対し、MCA2はテキスト表現に音声・映像などのマルチモーダル情報を適切に組み込み、GIFはそのマルチモーダル情報が組み込まれたテキスト表現を1つにまとめる役割を果たします。

下図は、本論文のモデルのアーキテクチャを示したものになります。

MAFのMultimodal Fusion Blockは、MCA2(Multimodal Context Aware Attention)を用いてaudio-visual cuesを取得し、さらにGIF(Global Information Fusion) Blockを用いて取得したaudio-visual cuesとテキストを融合させます。

このモジュールの最大の利点は、BARTやmBARTの複数の階層に簡単に組み込むことができることであり、これにより様々なマルチモーダルインタラクションを統合することが可能になりました。

Qualitative Analysis（定性的な分析）

本実験では、主に以下の5つのモデルを用いて実験が行われました。

BART (Lewis et al.,2020): BERTの双方向TransformerとGPTのAuto-regressive Transformerを組み合わせた構造をした、標準的な機械翻訳アーキテクチャを持つモデル。本論文ではその基本バージョンを使用している
mBART(Liu et al., 2020) : BARTと同じアーキテクチャと目的に従い、かつ異なる言語の大規模なモノリンガルコーパスで学習されるモデル
MAF-TA_B: MAFモジュールにaudio cuesを組み込んだBARTベースのモデル
MAF-TV_{B :}MAFモジュールにvisual cuesを組み込んだBARTベースのモデル
MAF-TAV_B: MAFモジュールにaudio-visual cuesを組み込んだBARTベースのモデル

下の表は、最も性能の良いモデルであるMAF-TAV_Bと、それに対応するBARTのいくつかのサンプルになります。

この結果から、以下のことが分かります。

(a)では、BARTとMAF-TAV_Bが生成した説明文が一貫しておらず、どちらも対話の文脈に適していないため、改善の余地がある例を示している
(b)では、MAF-TAV_BがBARTが生成した説明文と異なり、対話のトピックに沿った説明文を生成できている例を示している
(c)では、MAF-TAV_Bの方がBARTよりも皮肉表現を上手く捉えた説明文を生成できている例を示している

このように、聴覚情報と視覚情報を組み込んだMAFは、BARTよりも適切に皮肉表現を理解し、説明文を生成できていることが確認できます。

Human Evaluation（人の手による評価）

提案するSEDタスクは生成タスクであるため、生成された結果を人の手で評価することも必要になります。

そのため、本論文では以下の条件下でuser studyが行われました。

テストセットから30個のインスタンスを選び、25人の評価者の協力を得て、user studyを行った
評価者には、皮肉表現を含んだ対話のトランスクリプトと、音声付きのビデオクリップが与えられ、生成された説明文を評価するよう依頼した
各評価者はビデオクリップを見た後、生成された説明文を以下の要素に基づいて0〜5で評価しなければならない(5が最も良い)
- Coherency : 説明がいかにうまく整理され、構成されているかを評価する
- Related to dialogue: 生成された説明が、対話のトピックに沿っているかどうかを評価する
- Related to sarcasm: 対話に含まれる皮肉表現に関連する事を説明しているかどうかを測定する

下の表は、5つのモデルにおいて前述の各カテゴリーの平均点を示したものになります。

この結果から、以下のことが分かります。

MAF-TAV_Bは、他のモデルと比較すると、よりうまく整理され、首尾一貫した説明文を生成していると評価された
MAF-TAV_BとMAF-TV_Bは、"Related to dialogue"の項目が0.55点増加しており、より対話のトピックに焦点を当てた生成ができていると評価された
さらに、MAF-TAV_Bは"Related to sarcasm"の項目においてBARTと比較して約0.6点の改善を示し、皮肉表現の把握に優れていると評価された

このように、本論文の提案モデルは、場面描写、顔の特徴、登場人物の表情などの会話に明示的に含まれない情報を取り込むことができていることが立証されました。

しかし、表の平均点はいずれも3.5点以上の得点を示しておらず、このタスクにおいて更なる検討が必要なことを示唆しています。