关于人工智能:强化学习算法

引言

在 强化学习根底 文章中咱们提到动静布局办法。动静布局作为一种model-based的办法,应用场景具备十分的局限性。本文将从理论利用角度登程,介绍并比照几种model-free的办法。

算法

算法包含:

  • model-free VS model-based

    • 动静布局DP
    • 蒙特卡洛MC
  • Value-based类

    • 蒙特卡洛MC
    • 时序差分TD:SARSA
    • 时序差分TD:Q-Learning
    • Deep Q-learning
    • Nature DQN
    • Double DQN
    • Prioritized DQN
    • Dueling DQN
  • Policy Gradient

    • reinforce
  • Policy Gradient + Value-based

    • Actor-Critic

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理