可视化资源

GridWorld 强化学习

Andrej Karpathy 的 REINFORCEjs：在网格世界里实时观察价值函数、策略与轨迹的演化，是理解 RL 三大主线（基于价值 / 基于策略 / Actor-Critic）最直观的小工具。

三个层次的同一环境

REINFORCEjs GridWorld 价值函数收敛 — 动态规划求解后的 GridWorld：每格的数值是状态价值 V(s)，箭头指向最优动作。同一个环境也支持 TD / Q-Learning / Policy Gradient 三种解法。

推荐的看法

先看 GridWorld: DP —— 已知转移概率，迭代 Bellman 方程
再看 GridWorld: TD —— 无模型采样，体会 Q-Learning 的更新
最后看 PuckWorld / WaterWorld —— 连续状态下的策略梯度

交互式资源

REINFORCEjs（主页）↗

Karpathy 的 RL 演示合集，纯浏览器运行，源码可读性极高。

GridWorld: DP ↗

动态规划下的价值迭代实时演示。

HuggingFace Deep RL Course ↗

系统的免费深度强化学习课程，含 Colab 实验。