![[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/October2024/arumenoy-tts.png)
[连我的狗都会说话的零镜头学习] 验证并解释人工智能语音克隆和唇音同步
三个要点
✔️ 零镜头学习(Zero-shot Learning)如何通过现有知识的推理来处理未知概念
✔️演示和讨论用几秒钟的音频数据克隆(复制)作者和她的狗的声音,并将它们变成母语使用者
✔️ 零镜头学习所涉及的音频和图像特征点可视化
XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model
written by Edresson Casanova, Kelly Davis, Eren Gölge, Görkem Göknar, Iulian Gulea, Logan Hart, Aya Aljafari, Joshua Meyer, Reuben Morais, Samuel Olayemi, Julian Weber
[Submitted on 7 Jun 2024 (v1)]
Subjects: Audio and Speech Processing (eess.AS); Computation and Language (cs.CL); Sound (cs.SD)
Comments: Accepted at INTERSPEECH 2024LivePortrait: Efficient Portrait Animation with Stitching and Retargeting Control
written by Jianzhu Guo, Dingyun Zhang, Xiaoqiang Liu, Zhizhou Zhong, Yuan Zhang, Pengfei Wan, Di Zhang
[Submitted on 3 Jul 2024 (v1)]
Subjects: Computer Vision and Pattern Recognition (cs.CV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
本文所涉及的零点学习(Zero-shot Learning)是许多领域所使用的技术之一,在这些领域中,人工智能被用来利用现有的学习知识对未知情况(信息)得出适当的答案。
总的来说,这项技术已经表明,人工智能有能力从其他学习知识(经验)中进行推理,从而似是而非地解决即使是完全未知的事情。那么,它能在多大程度上解决和应对未知情况呢?
本文介绍了基于人工智能的语音克隆技术和与深度伪造类似的唇语同步(lip-synching)技术,并在实践中对其进行了检验。
从狗狗的嚎叫声中克隆出双语音频。
人工智能语音克隆技术的多语种世界
人工智能语音克隆技术可从几秒钟的语音样本中学习 "语音特征",并以类似样本的语音朗读句子。
一个显著的技术特点是零镜头学习,通过一系列推理(估计),即使训练数据中没有声音,也能自然再现。甚至我的狗的嚎叫声也能变成声音。
此外,XTTS 和 VALL-E X 还能使用多种语言,因此它们可以 "像本地人一样 "从日语读到英语,从英语读到日语。
就连交换方式也将发生革命性的变化。
下一节,我们将介绍本文所述技术的基本原理以及如何使用这些技术。
人工智能特征提取的可视化
语音和图像识别人工智能内部执行的 "数据特征提取 "是什么? 其中一部分是使用编程语言 python 中的 Librosa 和 OpenCV 库进行可视化的。
语音信号的特征提取
以不同颜色显示的熔谱图有助于人工智能语音识别捕捉情感和说话风格的差异。
梅尔频谱图是一种基于人耳感知频率的变换。语音特征很容易被突出显示,将其作为预处理步骤可使人工智能更容易识别语音数据在情感、语气和语音质量方面的细微差别。
与虚线表示的峰值检测类似,起音强度是 "起音 "在语音数据中的强度指标。
提取狗狗嚎叫的特征。
语音克隆嚎叫模仿词语时的特征提取
上图是一只狗在嚎叫,下图是通过语音克隆模仿人类说话。两者一目了然。
不过,值得注意的是,有一种共同的水平条纹模式(共振结构)。低频中的重叠频带是狗嚎叫所特有的。经证实,这两种声音都存在,而人工智能语音克隆可以 "尽力 "将其转换成更接近人类发声的模式。
从技术上讲,它向再现 "会说话的狗 "又迈进了一步,也让人们看到了语音克隆人工智能的能力。
图像特征提取
人工智能模型对图像数据的特征提取与使用算法(人工蛮力)提取轮廓、边角、颜色等的传统方法有着本质区别。
一般来说,人工智能模型使用大量数据来学习作为信息的特征 "本身"。人工智能模型会根据预先训练的数据,自动优化和提取图像中哪些特征是重要的,以及应该如何捕捉这些特征。
可视化提取的一部分。
狗和作者图像特征提取的可视化图像。
LivePortrait 可捕捉图像和视频中的隐含关键点(简单地说,就是控制面部运动的隐藏坐标),并将其转化为对运动非常重要的区域的自然动画。
在上面的可视化图像中,眼睛和嘴巴也被标记出来,但人工智能模型甚至能自动捕捉到 "隐藏 "的特征点,这种技术类似于零镜头学习方法,从而使动作更加逼真。
在训练数据中加入了动画风格的肖像图像,狗狗的唇部动作(嘴部包装)视频也略带动画的可爱感。
零镜头学习的基本原则,让它看起来像这样
一个大胆的比喻可以说明这一点。
当人工智能正在学习 "狗 "和 "猫 "的图像时,当它对 "未学习过的动物"(例如狐狸)的图像做出反应时,人工智能无法正确识别狐狸。它感觉自己是通过类比狗或猫的特征来判断狐狸是一种新动物的。
人工智能会像拼图一样,把已经学到的信息结合起来,然后问:"这个新事物最像这些新事物中的哪一个?然后做出决定。
如果它与狗或猫有更多相似之处,我们就会判断它是 "介于狗和猫之间的动物"。但是,如果有更多不同的部分,我们就会判断它是一种'新动物'。
要确定一种动物是 "新 "的,就需要将它所具有的特征与狗或猫的特征进行比较,然后问:"它像哪一种动物?然后进行类比。
而把它们处理成 "像狗一样 "或 "像猫一样 "的想法,与每篇论文中涉及的零镜头学习的基本原理不谋而合。
可视化图片展示了特征提取的实例,例如狗狗的 "眼睛 "和 "嘴巴"。
展示特征提取实例的可视化图片,如作者的 "眼睛 "和 "嘴巴"。
对于这个 "类似的东西 "的比喻来说,可比较的训练数据越多,人工智能就越准确,能力就越强。
如果我们更进一步呢?
人工智能确定 "这是一种结合了它正在学习的信息的新动物",但它不知道名字。因此,它就像 "暂时解决一个新难题 "一样学习这些特征。
然后,当他们再次面对类似动物的图像时(例如另一只狐狸),他们就会认为 "这与我以前学过的新谜题相似",从而更有效地处理它。
这种迭代过程将导致人工智能的发展和能力的提高,这一假设并没有错。
人工智能学习的信息到底是什么?
这是关于人工智能使用的特征(训练数据)记忆。
图像和语音识别中使用的 "学习特征 "通常存储为神经网络中的权重。这些权重可称为参数,用于在处理输入数据时捕捉模糊特征。
学习权重本身并不是人类可以直观 "理解 "的形式。它们被转换成一种数学表示形式。
具体来说,就是存储(保存)大量信息矩阵和向量,神经网络利用它们进行特征提取和其他识别。
如何捕捉所学信息的特征?
本文介绍的内容是技术说明和工作示例。
目前,人工智能的神经网络是识别、生成和合成的基础,但其训练和存储的数据和特征却处于黑箱状态。
我们可以用数学方法解释权重和参数的工作原理,但很难直观地理解它们。打个比方,这就好比观察人脑的神经网络,却不知道哪些神经在做什么。
不过,可解释的人工智能(XAI)领域最近开始取得进展,人们开始着手澄清人工智能的决策过程。
不过,要完全解开这个黑盒子,可能还需要一些时间。
作者的音频克隆(日语)和对口型验证结果。
作者的音频克隆(英语)和唇语同步验证结果
摘要
从某种意义上说,各种人工智能通过类比它们从未见过或听说过的情况的类似模式来输出结果,这就是一种 "概括能力",它能从无到有。
它不同于单纯的模仿(抄袭),尽管它是以过去的数据为基础的。
这有点像信仰的飞跃,但如果这些人工智能的 "泛化能力 "增强,例如通过零点学习,我们最终极有可能实现 AGI 和人工智能,这既是希望,也有一丝不确定性。
然而,狗却说出了下面的话,如果你看了作者表演的视频,狗的动作就会觉得很滑稽,未来不就显得很有趣吗?
狗狗的留言
作者动作表演的结果。
与本文相关的类别