循环神经网络与门控机制
RNN 的展开形式,以及 LSTM / GRU 的门控结构示意。
RNN 的时间展开
LSTM 单元
LSTM 引入三个门(遗忘门、输入门、输出门)和一个独立的细胞状态,缓解长依赖梯度问题。
GRU 单元
GRU 把 LSTM 的三个门简化为两个(更新门 + 重置门),合并细胞状态与隐藏状态。
图片来源:Chris Olah — Understanding LSTM Networks(CC-BY 许可,已注明出处)。
TODO:如需镜像至本站,下载至 assets/viz/ 并替换 src。
字符级 RNN 生成
图片来源:Andrej Karpathy — The Unreasonable Effectiveness of Recurrent Neural Networks