基于卷积的序列到序列模型
使用卷积代替循环结构,可并行化训练、避免长依赖梯度消失。
WaveNet(空洞因果卷积)
通过堆叠空洞因果卷积扩大感受野,逐点生成音频/序列。
图片来源:DeepMind Blog
Facebook fairseq(卷积 Seq2Seq)
编码器和解码器均使用 CNN,加上注意力机制,在保持质量的同时获得 RNN 难以企及的并行速度。
使用卷积代替循环结构,可并行化训练、避免长依赖梯度消失。
通过堆叠空洞因果卷积扩大感受野,逐点生成音频/序列。
图片来源:DeepMind Blog
编码器和解码器均使用 CNN,加上注意力机制,在保持质量的同时获得 RNN 难以企及的并行速度。