共计 299 个字符,预计需要花费 1 分钟才能阅读完成。
引言
在 强化学习根底 文章中咱们提到动静布局办法。动静布局作为一种 model-based 的办法,应用场景具备十分的局限性。本文将从理论利用角度登程,介绍并比照几种 model-free 的办法。
算法
算法包含:
model-free VS model-based
- 动静布局 DP
- 蒙特卡洛 MC
Value-based 类
- 蒙特卡洛 MC
- 时序差分 TD:SARSA
- 时序差分 TD:Q-Learning
- Deep Q-learning
- Nature DQN
- Double DQN
- Prioritized DQN
- Dueling DQN
Policy Gradient
- reinforce
Policy Gradient + Value-based
- Actor-Critic
正文完