优化算法对比
不同优化器在损失面上的轨迹差异:SGD / Momentum / NAG / Adagrad / RMSprop / Adam。
三维损失面上的优化轨迹
本页 GIF 由作者制作,原始视频版本:opt-3d.mov
交互式资源
Why Momentum Really Works ↗
distill.pub 的交互式文章,从凸优化的角度解释动量为什么有效。
Sebastian Ruder:梯度下降综述 ↗
系统综述 SGD 各变种的数学形式与适用场景。
TODO:可补充鞍点对比、长峡谷损失面等经典场景的二维动图(Alec Radford 等社区版本)。