赶上最新的AI论文

用较少的计算资源工作的文本转语音方法。

用较少的计算资源工作的文本转语音方法。

纳斯达克

三个要点
✔️ 提出了一种在资源有限的设备(如手机)上设计文字转语音模型的方法。
✔️ 与使用NAS的传统轻量级模型相比,减少了模型大小和推理延迟
✔️ 在不影响音频质量的情况下,成功地自动设计出更轻更快的模型

LightSpeech: Lightweight and Fast Text to Speech with Neural Architecture Search
written by Renqian LuoXu TanRui WangTao QinJinzhu LiSheng ZhaoEnhong ChenTie-Yan Liu
(Submitted on 8 Feb 2021)
Comments: 
ICASSP 21
Subjects: Sound (cs.SD); Artificial Intelligence (cs.AI); Machine Learning (cs.LG); Audio and Speech Processing (eess.AS)

code:  

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

文本到语音,从文本中合成自然语音,已被部署在许多服务中,如语音导航和新闻播报。基于神经网络的文本转语音模型比传统文本转语音中使用的模型明显提高了语音质量,但由于大多数基于神经网络的模型使用自回归模型并且有很大的推理延迟,使得它们很难在移动电话等终端设备上使用。非自回归模型明显比自回归模型快,但需要更大的模型尺寸、推理延迟和功耗。因此,非自回归模型也很难在移动电话等终端设备中使用,例如本文所针对的设备。

在移动电话等终端设备中使用这些模型的一个可能的技术是使神经网络轻量化。有许多设计轻量级和高效的神经网络的技术,如量化和剪枝。这些方法可以将大模型压缩成小模型,并以较少的计算成本取得了很大的成功。然而,这些方法大多是为计算机视觉的卷积神经网络设计的,它包含了特定领域的知识和属性,因此,递归神经网络和注意力网络,如用于文本到语音的网络它不能轻易扩展到诸如文本到语音中使用的模型。例如,手动减少网络的深度或宽度会导致严重的性能下降。

鉴于这些问题,作者考虑使用神经架构搜索(NAS)来设计一个最佳架构。为了将神经架构搜索应用于新的领域和任务,搜索空间、搜索算法和需要设计评价指标。在本文中,这三者(搜索空间、搜索算法和评价指标)的设计是为了在NAS中设计一个文本到语音的模型,该模型被认为可以在计算资源有限的终端设备上运行,如手机。

建议的方法

对当前模式的分析

FastSpeech是文本转语音领域的一个领先模式。因此,本文采用了这一模型作为本文的主干。首先,对FastSpeech的结构进行分析,看哪些部分需要更多的参数。

下表显示了每个FastSpeech模块的参数数量。

该表显示,编码器和解码器在FastSpeech的参数数量中占了很大一部分。因此,作者主要是为了减少编码器和解码器的尺寸,并利用NAS探索编码器和解码器的架构。此外,预测器的参数数总共不多,但它在推理时间中占据的比例很小。因此,我们的目标不是探索架构,而是手动设计一个执行较轻操作的分布式预测器。

搜索空间的设计

FastSpeech有四个用于编码器和解码器的转化器块,每个转化器都包含一个多头的自我注意机制和一个前向传播网络。这个编码器和解码器框架被采纳为网络的骨干。多头自留地机制和变压器块中包含的前向传播网络被单独考虑,并作为独立的操作来处理。

使用上述的骨干网络,搜索空间设置如下。

  1. 由于LSTM的推理速度较慢,所以没有考虑它。
  2. 多头自留地机制,有不同数量的兴趣头{2,4,8}。
  3. 使用深度分离卷积(SepConv),以{1、5、9、13、17、21、25}为核大小。

因此,总共有11个候选操作:一个前向传播网络、三个多头自我关注机制和七个SepConvs。

搜索算法

虽然有许多探索神经网络架构的方法,但作者采用了基于GBDT的方法(GBDT-NAS)。这种方法是通过使用GBDTs来预测架构的准确性,从而加快对架构的评估。在训练集上对GBDT预测结果最好的架构进行训练,然后在设计集上验证它们的性能,以寻找具有最佳性能的架构。

实验

数据集

我们使用LJS语音数据集,其中包含13100对文本和语音数据。这个数据集被分为三部分,12900个样本作为训练集,100个样本作为魔鬼集,100个样本作为测试集。

结果。

...语音质量

在测试集上进行了CMOS评估,以评估合成语音的质量。结果显示在下面的表格中。

它比较了所提出的方法(LightSpeech)、标准FastSpeech和人工设计的轻量级FastSpeech。该表显示,尽管参数数量与手工设计的轻量级FastSpeech模型相当,但语音质量(CMOS)却能达到比标准FastSpeech更好的性能。

... 更高的速度和计算复杂性。

下表显示了测量速度和计算量的结果。

该表显示,LightSpeech发现的架构比FastSpeech2的可压缩性高15倍,有16倍的MAC,并且CPU推理速度比FastSpeech2快6.5倍,同时达到相当的声音质量。因此,它可以被视为在许多资源受限的情况下更现实地部署。

摘要

本文提出了LightSpeech,以发现一个使用NAS的轻量级和快速的文本转语音模型。实验表明,所发现的架构取得了比FastSpeech2高15倍的压缩率,高16倍的MAC数量和6.5倍的压缩率。在CPU上的推理速度提高了,声音质量也相当好。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们