GridWorld 强化学习
Andrej Karpathy 的 REINFORCEjs:在网格世界里实时观察价值函数、策略与轨迹的演化,是理解 RL 三大主线(基于价值 / 基于策略 / Actor-Critic)最直观的小工具。
三个层次的同一环境
推荐的看法
- 先看 GridWorld: DP —— 已知转移概率,迭代 Bellman 方程
- 再看 GridWorld: TD —— 无模型采样,体会 Q-Learning 的更新
- 最后看 PuckWorld / WaterWorld —— 连续状态下的策略梯度