可视化资源

GridWorld 强化学习

Andrej Karpathy 的 REINFORCEjs:在网格世界里实时观察价值函数、策略与轨迹的演化,是理解 RL 三大主线(基于价值 / 基于策略 / Actor-Critic)最直观的小工具。

三个层次的同一环境

REINFORCEjs GridWorld 价值函数收敛
动态规划求解后的 GridWorld:每格的数值是状态价值 V(s),箭头指向最优动作。同一个环境也支持 TD / Q-Learning / Policy Gradient 三种解法。
来源:Andrej Karpathy — REINFORCEjs

推荐的看法

  1. 先看 GridWorld: DP —— 已知转移概率,迭代 Bellman 方程
  2. 再看 GridWorld: TD —— 无模型采样,体会 Q-Learning 的更新
  3. 最后看 PuckWorld / WaterWorld —— 连续状态下的策略梯度

交互式资源