赶上最新的AI论文

CLAP-IPA:通过语音和 IPA 序列的对比学习获得多语言语音表征

CLAP-IPA:通过语音和 IPA 序列的对比学习获得多语言语音表征

自然语言处理

三个要点
✔️ 通过语音信号及其相应的 IPA(国际音标)序列之间的对比学习,建立多语言语音处理的基本模型(CLAP-IPA)
✔️ 在多语言情况下,关键词定位和强制对齐的性能表现出色。

✔️ 受益于与 IPA 的学习,在零点测试中保持高性能

The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language
written by Jian ZhuChangbing YangFarhan SamirJahurul Islam
(Submitted on 14 Nov 2023)
Comments: NAACL 2024 Main Conference

Subjects: Computation and Language (cs.CL); Sound (cs.SD); Audio and Speech Processing (eess.AS)

code: 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

口语处理是一个旨在利用语音作为输入实现各种自然语言处理任务的研究领域。随着最近高性能多模态模型(如GPT-4o)的出现,口语处理领域的挑战似乎已经所剩无几。但实际上,仍然存在许多挑战。本文将重点讨论其中之一:模型的多语言化

建立多语言模型意味着要建立能在多种语言中运行的模型。用数据资源丰富的语言(如英语和日语)建立模型相对容易。另一方面,世界上还有许多数据资源稀缺的语言。建立可在这些语言中运行的模型将有助于实现一个包容性的人工智能社会。

本文介绍的"CLAP-IPA "是一项直接解决如何使模型多语化这一挑战的研究。关键在于,它使用 IPA(国际音标)系统来描述语音:IPA 是描述世界上所有语言 "声音 "的符号系统,例如 "IPA "被写成 [aɪ-piː-eɪ]。

IPA与多语言化非常兼容。假设我们使用的不是 IPA,而是我们通常看到的字符。例如,英语是用字母表书写的,而日语是用汉字和假名书写的,因此每种语言的模型都将建立在不同符号系统的假设之上。这也会影响到模型本身的结构,从而难以用多种语言建立一致的模型。此外,世界上有些语言没有固定的书写系统(如瑞士德语阿拉伯语方言,这可能会妨碍首先采用这种政策。与此相反,IPA 可以实现与语言无关的一致描述,这自然就使模型的多语言化成为可能。

CLAP-IPA 基于之前一项名为 CLAP 的研究。简而言之,其理念可以概括为旨在通过对比和学习 "语音 "及其 "符号表示 "来建立更好的语音表示:CLAP 使用常规文本作为 "符号表示",而 CLAP-IPA 则采用 IPA 序列使其具有多语言性。其结果是关键字查找和关键字查找。因此,CLAP-IPA 在 "关键词定位 "和 "强制对齐 "这两项任务中都取得了优异的成绩。此外,使用 IPA 的好处已被证明可以保持高性能,尤其是在零镜头条件下。

什么是 IPA(国际音标)?

IPA是一种符号系统,用于描述世界上任何语言的 "声音"(它恰好与某种啤酒品种同名,因此如果您查看论文的 PDF 文件,标题中就有一个啤酒象形图)。 维基百科上的文章 总结了 IPA 的细节,因此我在这里只做简要介绍。

IPA有两种符号一种是用斜线 // 括起来的简化符号,另一种是用括号 [] 括起来的精确符号简化记号因目标语言而异,因此精确记号更便于以与语言无关的方式描述声音。因此,我们在下文中使用精确符号(如 [a]、[p])。

我们所说的 "音 "有很多种。例如,英语单词 "dog "由三个音 [d]、[ɒ] 和 [ɡ]组成。相比之下,日语中的 "工具 "一词严格来说由 [d]、[o]、[ɯ]、[ɡ] 和 [ɯ]五个音组成。虽然它们是两种不同的语言,但从发音水平来看,它们实际上有一些相似之处。具体地说,[d] 和 [g] 可以看作是同一个音。直观地看,不同的语言在声音层面上有一些共同点。因此,可以说 IPA 是由定义为相同符号(=[d] 和 [g])的相同声音组成的

前面提到的维基百科文章中也有一个IPA列表,您可能会感兴趣。

拟议模式(CLAP-IPA)的细节

创建数据集(IPA-PACK)

在训练模型之前,需要创建一个由语音对和 IPA 字符串组成的数据集。首先,需要准备一个由语音及其转写组成的多语言数据集。本文准备了三种类型的数据集:FLEURS、MSWC 和 DORECO。此时的转录是普通文本,而不是 IPA 序列。然后使用 G2P(Grapheme-to-Phoneme)系统将转录文本转换为 IPA 序列,其中 Grapheme 指的是 grapheme,即普通文本,而 Phoneme 在这里可以理解为 IPA。因此,G2P 可以说是一种将普通文本转换为 IPA 音序的系统。

这就产生了以下统计数据所示的数据集(IPAPACK):VoxCommunis 是一个由 38 种语言组成的先前研究数据集,而 IPAPACK 则由多达 115 种语言组成。

然而,G2P 并非在所有语言中都非常可靠,本质上需要人工验证。虽然对某些语言进行了人工验证,但几乎不可能对所有 115 种语言进行验证。因此,作者承认IPAPACK 可能包含错误,这也是本研究的主要局限之一。

模型培训

CLAP 是"对比语言-音频预训练"的缩写,CLAP-IPA 就是由此而来。很多人都听说过图像处理中的CLIP(对比语言-图像预训练)模型,而 CLAP 可以看作是它的音频版本。

对于由 IPA 列和语音对组成的数据集 $\mathcal{B}=\{P_i, S_iC}$$,$x_i=f_S(P_i)$IPA 列的表示向量,$y_i=f_T(S_i)$ 为语音的表示向量。这里,BERT 用作 $f_S$(IPA 列编码器),Whisper 用作 $f_T$(语音编码器)。

在这种情况下,将计算出SigLIP 损失(定义见下文)。

对于正确的数对,$z_{ij}$ 取 1 美元,对于其他数对,$z_{ij}$ 取 1 美元。直观地说,学习的方向是:正确答案对的内积 $x_i\cdot y_j$增大,其他答案对的内积 $x_i\cdot y_j$减小。换句话说,学习是以正确答案对的向量相似度增加的方式进行的。

需要注意的是,前一项研究中的 CLAP 采用了 softmax 损失,在损失方面与 CLAP-IPA 有所不同;众所周知,CLAP-IPA 采用的 sigmoid 损失具有更好的特性。如果您感兴趣,请参阅 本文。

实验细节

CLAP-IPA 的性能在两项任务中进行了评估,即关键词查找 (KWS) 和强制对齐

关键词搜索 (KWS)

KWS 是一项二进制分类任务,它将一组关键字和语音作为输入,并判断语音是否包含关键字。例如,当你对 Siri 说 "Hey Siri "时,你就开始了与 Siri 的交互,这正是 KWS 正在做的事情。

将 CLAP-IPA 用于 KWS 非常简单。它可以通过将给定的关键词转换为 IPA 序列来获得 CLAP-IPA 嵌入 $x$,并测量它与输入语音嵌入 $y$ 之间的相似度。如果相似度大于阈值,则认为关键词 "在语音中"。

强制对齐

强制对齐是从给定的语音中估计音素或单词的时间宽度的任务,我们发现这种强制对齐自然地出现在 CLAP-IPA 中。也就是说,在提取语音及其 IPA 序列的相似性矩阵时,我们发现在单词或音素的时间跨度上相似性更高。下图有助于您理解这一点。

这两个矩阵均转换为语音和 IPA 序列(*确切的说是 "词/音素序列")。详见论文)和相似性矩阵。上图显示的是在 "0-shot "设置下计算的矩阵,即预训练的 CLAP-IPA。下图显示的是经过微调的对齐模型的矩阵,可以看出,即使是在零拍摄的情况下,也存在一些对应关系,而在使用微调时,这种对应关系更加明显。

实验结果

首先是 KWS 的结果。以下是 LibriPhrase 数据集的英语评估结果。

一些补充说明。首先,顶部的 Easy/Hard 表示任务的难度级别:例如,当关键词是 "friend "时,Easy 是让学生判断一个完全不同的关键词,如 "guard";Hard 是让学生判断一个发音相似的关键词,如 "find"。前三种方法都是以前的研究:CLAP-IPA-TEXT 使用普通文本而不是 IPA,CLAP-IPA-PHONE 使用音素序列进行训练。它们的共同点是,由于缺乏 IPA,转录文本与语言无关。剩下的五个模型是建议的模型:CLAP-IPA-FLEURS 和 CLAP-IPA-VC 模型使用较少的训练数据,而其余模型则使用完整的训练数据。模型的大小顺序为极小 < 基本 < 较小。

结果表明,CLAP-IPA 在 "简单 "任务中表现突出,而在 "困难 "任务中的表现则优于之前的研究。此外,将 CLAP-IPA-TEXT 和 CLAP-IPA-PHONE 与其他 CLAP-IPA(= 根据 IPA 列训练的模型)进行比较,后者显示出更好的整体性能。这表明在多语言环境下使用 IPA 是非常有用的

以下是对未见语言的实验结果,即训练前数据中没有的语言。

在 IPA 专栏中研究的后五个模型的表现尤为突出。

接下来显示的是强制对齐的结果。以下是英语数据集 TIMIT 的结果。图中显示了单词和音素的配准性能。

上面六行是以前的研究,下面六行是建议的方法。之前研究中的单词结果没有显示,这可能是因为在英语中经过强制对齐训练的模型性能相当高。CLAP-IPA 的结果表明,即使是未经过强制对齐训练的零拍性能也相当不错,而且通过微调还能显著提高

以下是 SEEN 和 UNSEEN 语言的结果对比。

在使用 UNSEEN 后,学习成绩有所提高,这的确是一个巧合,但令人惊讶的是,学习成绩至少没有下降。在这里,使用 IPA 进行学习的优势再次显现出来。

摘要

在这项研究中,我们提出了一种通过语音和 IPA 序列之间的对比学习来获取多语言语音表征的方法。该方法的性能,尤其是在 "零镜头"(未见语言)条件下的性能非常显著,IPA 的优势可能已经无怨无悔地体现出来了。

在机器学习模型中出现 IPA 的机会通常不多。其中一个原因是,如前所述,目前还没有可靠的多语言 IPA 转换器。本研究中创建的 IPAPACK 也会包含一定量的错误。不过,本文的出色之处在于,我们对其进行了一定规模的实际训练,并验证了其性能。希望 IPAPACK 今后能成为人们关注的焦点,也希望有关 G2P 和使用 IPAPACK 进行训练的研究能不断涌现。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们