1、用传统方法将文本变成音位(phonemes),每个音位由通过一个训练得到的映射LUTp升维到dp = 256,并得到矩阵E
2、用一个神经模型Na,接收一排buffer的特征St-1 ,输出一系列GMM特征,并通过这些特征生成 attention向量at,并和矩阵E相乘,得到一个context向量ct
3、用神经网络Nu,接收 1)一排buffer St-1 ,2)新生成的 ct ,3) 之前整个系统的输出ot-1
再额外加上说话人身份id的一个embeding,Fu*z
输出特征u,并将其放置在buffer的第一个位置,buffer的其他位置后移,末位删除。
4、用神经网络No,接收更新后的一排buffer St,再额外加上说话人身份的embeding,Fu*z(这也行?),最后得到输出ot