关于人工智能:强化学习算法

October 25, 2020 · 1 min · jiezi

Table of Contents

引言

在强化学习根底文章中咱们提到动静布局办法。动静布局作为一种model-based的办法，应用场景具备十分的局限性。本文将从理论利用角度登程，介绍并比照几种model-free的办法。

算法

算法包含：

model-free VS model-based
- 动静布局DP
- 蒙特卡洛MC
Value-based类
- 蒙特卡洛MC
- 时序差分TD：SARSA
- 时序差分TD：Q-Learning
- Deep Q-learning
- Nature DQN
- Double DQN
- Prioritized DQN
- Dueling DQN
Policy Gradient
- reinforce
Policy Gradient + Value-based
- Actor-Critic