关于算法:MindSpore强化学习基础蒙特卡洛Monte-Carlo

在接触强化学习过程中，大家可能在很多场合据说蒙特卡洛这个词，例如Monte Carlo Tree Search，Monte Carlo CFR。理论即使在策略梯度(Policy Gradients)算法中也应用了蒙特卡洛办法，本文将介绍Monte Carlo算法和在强化学习中的利用。基本概念Monte Carlo办法源于20世纪40年代，由冯.诺依曼，斯塔尼斯拉夫·乌拉姆在核武器钻研过程中提出。和许多以作者名字(如拉格朗日定理，柯西定理)命名不同，Monte-Carlo其实并不是某位学者名字，实际上是一座位于摩洛哥的赌场。统计和概率学常常会将概率和博彩分割在一起，或者某天也会呈现澳门葡京办法/定理Monte Carlo实质上是一种统计学办法，这类办法通过随机抽样，依据随机事件呈现的频率来估算随机变量的特色大家小时候都学过撒豆子估算不规则图形的面积，应用一个规定图形包裹不规则图形，而后将肯定数量的豆子平均的洒向这个图形，通过计算不规则图形中豆子比例和规定形态的面积，即能够估算出不规则形态的面积。随着计算机技术产生，撒豆子被随机数代替，这一类办法也被各个领域宽泛应用。如果咱们并不知道圆形面积计算公式，假如圆形半径为1，咱们应用变长为2的正方形包裹这个圆形，而后平均采样，随着样点数量的减少，圆形面积将越来越靠近理论值

from math import sqrt, pi
from random import uniform

正方形边长和面积

side_length = 2.0
square_area = side_length * side_length

圆形半径

radius = side_length / 2

def in_circle(x, y):
return sqrt(x x + y y) < radius

num_sample = 10000000
num_in_circle = 0
for i in range(num_sample):
x = uniform(-1, 1)
y = uniform(-1, 1)
num_in_circle += in_circle(x, y)

落入圆形的样点个数

ratio = num_in_circle / num_sample

圆形面积

circle_area = ratio * square_area
print(‘circle area: {}, theory area: {}’.format(circle_area, pi radius radius))
执行后果circle area: 3.1413452, theory area: 3.141592653589793
强化学习中的利用根底利用在深度学习和强化学习畛域中，许多算法实际上应用了Monte-Carlo办法，并没有给它冠名。这些算法如此根底，咱们常常会疏忽它的存在。例如因为计算资源受限，深度学习把一个批次样本的梯度作为整体梯度的预计，来更新模型的权重，同时通过屡次采样(迭代次数，或者step数)修改偏差。经典的强化学习算法中，无论Q-Learning还是Policy Gradient算法中，都须要估算累计收益，例如多步TD TargetMonte-Carlo Tree Search蒙特卡洛树搜寻蕴含两层含意，首先它是一种树搜寻办法，和深度优先、广度优先搜索算法相似，它须要对树进行遍历。其次蒙特卡洛强调了它并不是一种确定性的搜索算法，而是通过启发式的形式，让树向着最优解方向成长，升高搜寻空间，实现了相似剪枝的性能。具体流程如下：抉择(Selection): 从根节点开始，通过UCT(Upper Confidence Bounds to Trees)办法向下直至抉择出一个叶子节点。UCT办法对每个节点进行打分，通常蕴含利用-摸索两个重量。利用重量源于先验常识，例如之前仿真的后果，有时也会蕴含神经网络给出的评分；摸索重量个别和这个节点的拜访次数无关，如果节点拜访的越少，则摸索重量的值越大。扩大(Expansion)：抉择完结之后，咱们失去一个叶子节点。当叶子节点曾经被充沛评估时，会在这个节点根底上拓展出一个新的叶子节点。评估是否充沛个别以这个叶子节点曾经被仿真过多少次来掂量。仿真(Simulation)：从叶子节点开始游戏，直至游戏完结。反向流传(Back Propagation)：仿真完结后，咱们会失去本次模仿的后果，拿这个后果刷新沿途节点分值。Monte-Carlo CFRCFR算法须要对博弈树进行遍历，从而计算某个动作的遗憾值。当博弈树规模十分大时，遍历整棵树的老本十分高，改良的办法：在单局博弈中，对动作进行剪枝。例如在某个信息集上，所有非法的动作有M个，算法人为的限度它的搜寻为N，N的数值还能够随着遍历层级的加深而缩小；作为补充，算法须要减少博弈的次数，尽可能笼罩更多的动作

关于算法:MindSpore强化学习基础蒙特卡洛Monte-Carlo

正方形边长和面积

圆形半径

落入圆形的样点个数

圆形面积

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于算法:MindSpore强化学习基础蒙特卡洛Monte-Carlo

正方形边长和面积

圆形半径

落入圆形的样点个数

圆形面积

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复