赶上最新的AI论文

什么是AI-SCHOLAR？

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

人人都会说英语的时代已经到来！适用于多种语言的零镜头语音合成技术让任何人都能像母语人士一样轻松发音！

肢体瘫痪者的语音识别功能 04/02/2025

三个要点
✔️ 可集成到多语言 TTS 系统中的拟议零镜头语音转换（VT）模块
✔️ 拟议的 VT 模块可将高质量、高重现性的语音从一个简短的语音转换为不同语言的语音
✔️ 它可以恢复有构音障碍的说话者的语音

Zero-shot Cross-lingual Voice Transfer for TTS
written by Fadi Biadsy, Youzheng Chen, Isaac Elias, Kyle Kastner, Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran
[Submitted on 20 Sep 2024]
Comments: Submitted to ICASSP
Subjects: Audio and Speech Processing (eess.AS); Sound (cs.SD)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

语音合成是一块潜力巨大的宝石...

刚读到这个！论文超级摘要！

我要讲一口流利的英语，与当地人尽情交流！自从我满怀激情地开始说英语以来，已经过去两年了。我对阅读和聆听英语的抵触情绪有所缓解，但我不会说英语。

英语的特定发音非常烦人。我会失败的。....这是我的经历，但我相信很多读者确实有这种感觉。

英语发音与日语有很大不同。我可以理解您为什么会担心这种发音是否能让您享受与当地人交流的乐趣。

本期内容TTS（文本到语音）技术，它肯定会作为一种通信工具发挥作用，减轻我们的一些担忧！

该模块由谷歌团队开发，只需几秒钟的语音样本，就能合成另一种语言的语音，同时保留个人的声音特征。

很棒吧？用于训练的样本只有几秒钟的音频。如果使用传统的合成技术，这通常需要至少两个小时，所以我不得不说这是革命性的。

因此，TTS 模型的出现已经有一段时间了，但它们都是基于同一种语言的合成，要将它们转换成多种语言存在技术上的挑战。

为了成功实现多语言合成，该研究应对了三个挑战。

即使只有少量语音样本，也能生成高质量的语音。
将语音功能从 A 语言转换到 B 语言。
为有语言障碍的人恢复声音。

这里提到的语言障碍一词是锦上添花。语言障碍是指一个人的语言器官或颅神经出现问题，无法正确发音的一种疾病。它与正常语言相去甚远，可以被视为研究中的另一种语言。

现在，这项研究的主要成果是开发出了零镜头 VT 模块，可以轻松集成到多语言 TTS 系统中。在合成准确性方面，我们从一个简短的语音样本中生成了九种语言的语音，说话人相似度平均达到 73%。此外，我们还证明了可以从有语言障碍的说话者的语音中合成高质量的语音。

很神奇吧？它能从几秒钟的语音中合成相似度超过 70% 的声音。这不仅是一种交流手段，还可用于各种福利用途，例如恢复因咽部切除术而失去说话能力的病人的声音。

在以往的研究中，高质量语音的合成需要大量的样本，而且不同语言之间的语音转换也很困难。这项研究极大地改善了这些局限性，大大拓展了语音合成的可能性。

可说话性在交流中非常重要。当你与人交谈愉快时，冷冰冰的机械声音作为交流的辅助工具就显得不那么有味道了。

从下一章节开始，我们将了解这一 VT 模块的架构。如果你想了解更多的技术，就不能逃避架构~。

让我们来看看 VT 模块的结构...

这就是 VT 模块的结构。一到这里。让我们回顾一下什么是模块。简单地说，模块就是可以集成到模型中的定制部分。如果你只是想了解这些内容，我想这样的认知水平不会给你带来任何问题。

我会慢慢解释。首先是输入部分。采样声音输入到扬声器编码器，要合成的文本输入到文本编码器。

在编码器中，输入文本被处理成易于处理的形式，而语音则被提取出说话者的特征。变压器层用于特征提取。

瓶颈层从语音编码器的输出中提取说话者的特征。

(看来说话者的特征是经过精心提取的--）。

时长预测器和升频器可预测每段文本的时长，并根据预测结果扩展提取的特征。

特征解码器共有六层，用于生成语音特征。

(共有六层！因此，他们可以始终如一地制作出高质量的音频）。

WaveFit Vocoder接收上一层产生的输出，并生成最终的语音波形。

是的。流程是这样的你对流程有大致的了解吗？

该模块的最大优点是可以很容易地融入现有的多语言 TTS 模型中。好吧，即使很容易，TTS 模型的结构也很复杂，而且可能在逐个程序的基础上更加复杂和怪异，因此我们可能无法与之建立联系。....

本来，这里是介绍和讨论结果的地方，但由于表格的介绍相当困难，本文只需提出以下几点即可。(虽然会重复摘要......）。

这不是一个 TTS 模型，而是一个模块。可以这么说，模块是可以添加到组装好的枪炮模型上的定制部件，或者是附加到神骑士变身腰带上的强化物品。

以往的研究需要大量语音样本才能达到高质量，而本模块只需要几秒钟的语音样本，就能生成九种语言的高质量语音，平均相似度超过 70%。

此外，语音合成有望扩展到福利应用领域，如恢复有语言障碍的人的语音。

嗯，我想大概就是这样了。语音合成很有趣，但要自己编程却非常困难。我试过用 GAN，但噪音太大，听起来根本不像语音。

我真的无法理解那些能够从零开始开发模型的工程师和研究人员！

是的。非常感谢所有读者读到这里，读到本期结束。

是阿萨--再见！

与女作家小笠原聊聊天

我们正在寻找有兴趣开展联合研究的公司和研究生！

他的专长是语音识别（实验系统），尤其是针对肢体障碍者。

这方面的资源有限，因此单独工作总是有限的。

谁愿意利用最新技术共同解决社会问题？

与本文相关的类别

アサさん

如果您对文章内容有任何改进建议等，请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系，我们将非常感激。