关于机器学习:强化学习简介

122次阅读

共计 3422 个字符，预计需要花费 9 分钟才能阅读完成。

强化学习 (Reinforcement Learning，RL) 是机器学习中的一个畛域，是学习做什么（即如何把以后的情景映射成动作）能力使得数值化的收益最大化, 学习者不会被告知应该采取什么动作，而是必须本人通过尝试去发现哪些动作会产生最丰富的收益

强化学习同机器学习畛域中的 有监督学习 和无监督学习 不同，有监督学习是从内部监督者提供的带标注训练集中进行学习（工作驱动型），无监督学习是一个典型的寻找未标注数据中隐含构造的过程（数据驱动型)

强化学习是与两者并列的第三种机器学习范式，强化学习带来了一个独有的挑战——摸索与利用之间的折中衡量，智能体必须利用已有的教训来获取收益，同时也要进行摸索，使得将来能够取得更好的动作抉择空间（即从谬误中学习）

强化学习的次要角色是 智能体 和环境, 环境是智能体存在和互动的世界。智能体在每一步的交互中，都会取得对于所处环境状态的察看（有可能只是一部分），而后决定下一步要执行的动作。环境会因为智能体对它的动作而扭转，也可能本人扭转。

智能体也会从环境中感知到处分信号，一个表明以后状态好坏的数字。智能体的指标是最大化累计处分，也就是回报。强化学习就是智能体通过学习来实现指标的办法。

MDP 简略说就是一个智能体（Agent）采取行动（Action）从而扭转本人的状态（State）取得处分（Reward）与环境（Environment）产生交互的循环过程，MDP 的策略齐全取决于以后状态（Only present matters），这也是它马尔可夫性质的体现

强化学习工作通常用 马尔可夫决策过程 (Markov Decision Process, MDP) 来形容，即

机器处于环境 $E$ 中, 状态空间为 $X,$ 其中每个状态 $x \in X$ 是机器感知到的环境的形容

机器能采取的动作形成了动作空间 $A$ ; 若某个动作 $a \in A$ 作用在以后状态 $x$ 上, 则潜在的转移函数 $P$ 将使得环境从以后状态按某种概率转移到另一个状态; 在转移到另一个状态的同时, 环境会依据潜在的“奖赏”(reward)函数 $R$ 反馈给机器一个奖赏

综合起来, 强化学习工作对应了四元组 $E=\langle X, A, P, R\rangle,$ 其中 $P: X \times A \times X \mapsto \mathbb{R}$ 指定了状态转移概率, $R: X \times A \times X \mapsto \mathbb{R}$ 指定了奖赏; 在有的利用中, 奖赏函数可能仅与状态转移无关, 即 $R: X \times X \mapsto \mathbb{R} .$

机器要做的是通过在环境中一直地尝试而学得一个“策略”(policy) $\pi,$ 依据这个策略, 在状态 $x$ 下就能得悉要执行的动作 $a=\pi(x)$

策略有两种示意办法:

一种是将策略示意为函数 $\pi: X \mapsto A,$ 确定性策略罕用这种示意

另一种是概率示意 $\pi: X \times A \mapsto \mathbb{R},$ 随机性策略罕用这种示意

$\pi(x, a)$ 为状态 $x$ 下抉择动作 $a$ 的概率, 这里必须有 $\sum_{a} \pi(x, a)=1$

确定性策略，在雷同的状态下，其输入的动作是确定的

优缺点

可能利用确定性梯度优化策略，所以不须要太多的采样数据，计算效率也很快
因为每次面对同一状态其输入的动作是惟一的，无奈探讨一些其它动作的成果，不具备自学习的能力

对于随机策略，对于雷同的状态，其输入的状态并不惟一，而是满足肯定的概率分布，从而导致即便是处在雷同的状态，也可能输入不同的动作

优缺点

随机策略将摸索和改良集成到一个策略中
须要采样的数据量较大，学习比较慢

强化学习中，处分函数 $R$ 十分重要, 它由以后状态、曾经执行的口头和下一步的状态独特决定

$$
r_{t}=R\left(s_{t}, a_{t}, s_{t+1}\right)
$$

长期累积处分有多种计算形式

其中 $T$ 步累计奖赏，指的是在一个固定窗口步数 $T$ 内取得的累计处分
$$R(\tau)=\sum_{t=0}^{T} r_{t}$$

另一种叫做 $\gamma$ 折扣处分，指的是智能体取得的全副处分之和，然而处分会因为取得的工夫不同而衰减。这个公式蕴含衰减率 $\gamma \in(0,1)$：

$$
R(\tau)=\sum_{t=0}^{\infty} \gamma^{t} r_{t}
$$

这里为什么要加上一个衰减率呢？为什么不间接把所有的处分加在一起？能够从两个角度来解释：直观上讲，当初的处分比外来的处分要好，所以将来的处分会衰减；数学角度上，有限多个处分的和很可能不收敛，有了衰减率和适当的约束条件，数值才会收敛

所谓摸索：是指做你以前素来没有做过的事件，以冀望取得更高的回报
所谓利用：是指做你以后晓得的能产生最大回报的事件

单步强化学习工作对应了一个实践模型, 即“$K$ - 摇臂赌博机”，$K$ - 摇臂赌博机有 $K$ 个摇臂, 赌徒在投入一个硬币后可抉择按下其中一个摇臂, 每个摇臂以肯定的概率吐出硬币, 但这个概率赌徒并不知道。赌徒的指标是通过肯定的策略最大化本人的奖赏, 即取得最多的硬币

仅摸索(exploration only): 将所有的尝试机会平均分配给每个摇臂(即轮流按下每个摇臂)，最初以每个摇臂各自的均匀吐币概率作为其奖赏冀望的近似预计

仅利用 (exploitation-only): 按下目前最优的(即到目前为止均匀奖赏最大的) 的摇臂，若有多个摇臂同为最优, 则从中随机选取一个.

显然，“仅摸索”法能很好地预计每个摇臂的奖赏, 却会失去很多抉择最优摇臂的机会;“仅利用”法令相同, 它没有很好地预计摇臂冀望奖赏, 很可能常常选不到最优摇臂. 因而, 这两种办法都难以使最终的累积奖赏最大化.
事实上，摸索和利用这两者是矛盾的, 因为尝试次数 (即总投币数) 无限, 增强了一方则会天然减弱另一方, 这就是强化学习所面临的“摸索 - 利用窘境”(Exploration Exploitation dilemma)

显然, 欲累积奖赏最大, 则必须在摸索与利用之间达成较好的折中

$\epsilon$ - 贪婪法基于一个概率来对摸索和利用进行折中: 每次尝试时, 以 $\epsilon$ 的概率进行摸索, 即以平均概率随机选取一个摇臂; 以 $1-\epsilon$ 的概率进行利用, 即抉择以后均匀奖赏最高的摇臂(若有多个, 则随机选取一个)

Softmax 算法基于以后已知的摇臂均匀奖赏来对摸索和利用进行折中

若各摇臂的均匀奖赏相当, 则选取各摇臂的概率也相当; 若某些摇臂的均匀奖赏显著高于其余摇臂, 则它们被选取的概率也显著更高.

思考多步强化学习工作, 暂且先假设工作对应的马尔可夫决策过程四元组 $E=\langle X, A, P, R\rangle$ 均为已知, 这样的情景称为“模型已知”，即机器已对环境进行了建模, 能在机器外部模拟出与环境雷同或近似的情况。在已知模型的环境中学习称为“有模型学习”(model-based learning)

此时, 对于任意状态 $x, x^{\prime}$ 和动作 $a,$ 在 $x$ 状态下执行动作 $a$ 转移到 $x^{\prime}$ 状态的概率 $P_{x \rightarrow x^{\prime}}^{a}$ 是已知的, 该转移所带来的奖赏 $R_{x \rightarrow x^{\prime}}^{a}$ 也是已知的

优缺点

有模型学习最大的劣势在于智能体可能 提前思考来进行布局，走到每一步的时候，都提前尝试将来可能的抉择，而后明确地从这些候选项中进行抉择

最大的毛病就是智能体往往不能取得环境的实在模型。如果智能体想在一个场景下应用模型，那它必须齐全从教训中学习，这会带来很多挑战。最大的挑战就是，智能体摸索进去的模型和实在模型之间存在误差，而这种误差会导致智能体在学习到的模型中体现很好，但在实在的环境中体现得不好（甚至很差）

在事实的强化学习工作中, 环境的转移概率、奖赏函数往往很难得悉, 甚至很难晓得环境中一共有多少状态

若学习算法不依赖于环境建模，则称为免模型学习(model-free learning), 这比有模型学习艰难的多

机器学习—周志华
强化学习简介 (Introduction of Reinforcement Learning)
OpenAI SpinningUp
强化学习办法（一）：摸索 - 利用窘境

正文完

机器学习

发表至：机器学习

2020-12-27

0

关于机器学习:MindSporeCUDA编程一在WSL-ubuntu-2004上安装CUDA环境

关于机器学习:MindSpore报错-Ascend-环境下ReduceMean不支持8维及其以上的输入

关于机器学习:机器学习算法-Logistic-回归-详解

关于机器学习:AutoGPT-横空出世会成为-AI-领域中的下一大趋势吗

关于javascript:必须掌握js中的事件看javascript高级编程第四版的记录

关于机器学习:强化学习简介

强化学习简介

外围概念

马尔可夫决策过程(MDP)

策略

确定性策略

随机性策略

处分

摸索与利用

多臂赌博机问题

$\epsilon$ - 贪婪法

Softmax

强化学习的分类

有模型学习

免模型学习

参考

Just My Socks（注册教程内含优惠码）

关于机器学习:强化学习简介

强化学习简介

外围概念

马尔可夫决策过程(MDP)

策略

确定性策略

随机性策略

处分

摸索与利用

多臂赌博机问题

$\epsilon$ - 贪婪法

Softmax

强化学习的分类

有模型学习

免模型学习

参考

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）