引言

在 强化学习根底 文章中咱们提到动静布局办法。动静布局作为一种model-based的办法,应用场景具备十分的局限性。本文将从理论利用角度登程,介绍并比照几种model-free的办法。

算法

算法包含:

  • model-free VS model-based

    • 动静布局DP
    • 蒙特卡洛MC
  • Value-based类

    • 蒙特卡洛MC
    • 时序差分TD:SARSA
    • 时序差分TD:Q-Learning
    • Deep Q-learning
    • Nature DQN
    • Double DQN
    • Prioritized DQN
    • Dueling DQN
  • Policy Gradient

    • reinforce
  • Policy Gradient + Value-based

    • Actor-Critic