关于人工智能:强化学习算法

7次阅读

共计 299 个字符,预计需要花费 1 分钟才能阅读完成。

引言

在 强化学习根底 文章中咱们提到动静布局办法。动静布局作为一种 model-based 的办法,应用场景具备十分的局限性。本文将从理论利用角度登程,介绍并比照几种 model-free 的办法。

算法

算法包含:

  • model-free VS model-based

    • 动静布局 DP
    • 蒙特卡洛 MC
  • Value-based 类

    • 蒙特卡洛 MC
    • 时序差分 TD:SARSA
    • 时序差分 TD:Q-Learning
    • Deep Q-learning
    • Nature DQN
    • Double DQN
    • Prioritized DQN
    • Dueling DQN
  • Policy Gradient

    • reinforce
  • Policy Gradient + Value-based

    • Actor-Critic

正文完
 0