paper 用野数据做语音合成

Voice Synthesis for in-the-Wild Speakers via a Phonological Loop

https://arxiv.org/pdf/1707.06588.pdf

1、用传统方法将文本变成音位（phonemes），每个音位由通过一个训练得到的映射LUTp升维到dp = 256，并得到矩阵E
2、用一个神经模型Na，接收一排buffer的特征St-1 ，输出一系列GMM特征，并通过这些特征生成 attention向量at，并和矩阵E相乘，得到一个context向量ct
3、用神经网络Nu，接收 1）一排buffer St-1 ，2）新生成的 ct ，3) 之前整个系统的输出ot-1
再额外加上说话人身份id的一个embeding，Fu*z
输出特征u，并将其放置在buffer的第一个位置，buffer的其他位置后移，末位删除。
4、用神经网络No，接收更新后的一排buffer St，再额外加上说话人身份的embeding，Fu*z（这也行？），最后得到输出ot

这系统的 phoneme 是用固定方法（CMU pronouncingdictionary）产生的。如果phoneme也是自学来的话那就会有趣得多。目前这系统如果让它处理其他语言的话怕效率会差得多。因此说这系统可以处理野数据是稍吹牛了些。

新出的SRU潜力巨大，LSTM即将退出历史舞台
https://baijiahao.baidu.com/s?id=1578304072268068784&wfr=spider&for=pc
已证实在TTS任务上GPU训练和推理速度均快10倍，CPU快3倍左右

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

19回复贴，共1页

<<返回人工智能吧

分享到:

日	一	二	三	四	五	六