关于强化学习:百度工程师浅析强化学习

作者 | Jane 导读 本文次要介绍了强化学习(Reinforcement Learning,RL)的基本概念以及什么是RL。强化学习让智能体通过与环境的交互来学习如何做出决策,以取得最大的累积处分。文章还介绍了策略梯度(Policy Gradient,PG)和近端策略优化(PPO)等强化学习算法。 全文7099字,预计浏览工夫18分钟。 01 强化学习(Reinforcement Learning,RL)1.1 基本概念&什么是RL强化学习(reinforcement learning,RL)专一于让智能体(agent)通过与环境的交互来学习如何做出决策,以使其在一直变动且不确定的环境中取得最大的累积处分。 这个过程能够用以下几个因素来形容: 智能体(Agent):智能体是执行动作并与环境进行交互的实体。它能够是一个机器人、一个虚构角色、一个算法等。 环境(Environment):环境包含智能体所处的所有上下文,包含内部条件、状态变量和其余影响智能体的因素。 动作(Action):智能体能够在环境中执行的操作,这些操作可能会扭转环境的状态。 状态(State):状态是形容环境的当前情况的信息。智能体的决策通常依赖于以后状态。 处分(Reward):在每个工夫步,智能体执行一个动作后会取得一个处分信号,用于批示动作的好坏。指标是最大化累积处分。 策略(Policy):策略定义了智能体如何依据以后状态抉择动作。强化学习的指标之一是找到一个最优策略,使智能体可能取得最大的累积处分。 价值函数(Value Function):价值函数掂量了在某个状态下执行某个策略可能取得的预期累积处分。这个函数帮忙智能体评估不同状态的重要性。 学习过程:强化学习的外围是智能体通过尝试不同的动作并察看处分信号来学习适应性策略。它能够应用不同的算法,如Q-learning、Deep Q-Networks(DQN)、Policy Gradient等。 △图1 强化学习过程 其中状态(State)是对整个环境的残缺形容,包含了所有对智能体的决策和口头有影响的信息。状态通常用来领导智能体的决策,因为它提供了无关环境以后状态的全副信息。 观测(Observation)则是对状态的一种形象形容,它可能会疏忽或省略一些状态信息。在理论问题中,有时候智能体无奈间接观测到残缺的状态,而只能获取到一部分信息,即观测。这可能是因为某些信息无奈间接测量,或者因为为了简化问题而对状态进行了形象。 因而,智能体基于它的观测来做出决策,而不是间接应用残缺的状态。这就须要智能体具备从观测中学习无关状态的信息的能力,以便更好地进行决策和口头。 上面举一些可利用强化学习的示例: 1、在电子游戏中,摇杆是智能体,主机是环境,显示屏上的游戏画面(像素)是观测,击杀怪物得分则是处分。 2、在阿法狗围棋对弈中,阿法狗是智能体,人类棋手是环境,棋局是观测,围棋的输赢则是处分。 在强化学习中,智能体继续与环境进行交互,采取一系列的动作,从而造成一个状态和动作的序列,这个序列被称为轨迹(trajectory): 一个交互序列被称为一个回合(episode),在每个回合中,智能体依据以后状态抉择动作,与环境互动,并依据处分信号进行学习和策略优化,以取得最大化累积处分。 这里须要留神的是,环境对咱们来说是黑盒,是不可控的,它在以后状态下跳转到下一状态是遵从肯定的散布的,也就是说它是有肯定的随机性的,那么它产出的处分也具备了肯定的随机性。咱们可控的是actor的policy,即能够通过学习,让policy在面对状态 s 时采取一个能让他取得最大处分的action。所以实际上咱们的指标是最大化冀望的累积处分(expected cumulative reward)。 1.2 RL和监督学习的区别监督学习: 1. 数据独立同散布(i.i.d.): 监督学习假如样本是从一个未知散布中独立地采样失去的,数据之间没有时序关联。 2. 标签信息: 在监督学习中,每个样本都有正确的标签信息,即模型须要学习从输出到标签的映射关系。 3. 训练指标:监督学习的指标是使模型的预测尽可能地靠近实在标签,通常通过最小化预测与实在标签之间的损失函数来实现。 4. 局限性: 监督学习在须要大量标记数据、难以获取所有可能状态的标签信息或者数据之间存在时序关联的状况下可能受限。 强化学习: 1. 时序关联数据: 强化学习中智能体的观测是时序关联的,以后的决策会影响将来的观测和处分。 2. 提早处分: 强化学习中智能体在做出决策后不会立刻失去处分,处分可能在将来的工夫步骤才会呈现,这就须要智能体通过试错来学习哪些决策导致了最终的处分。 3. 摸索与学习: 强化学习中智能体须要在摸索和利用之间找到均衡,以发现可能最大化长期累积处分的无效策略。 4. 超过人类体现: 强化学习的一个劣势在于它能够在某些状况下超过人类体现,因为智能体能够自主摸索环境并发现人类难以想象的优化策略。 1.3  RL算法类型按不同类型的智能体办法划分: 1.基于价值的智能体(Value-Based Agents): 智能体显式地学习价值函数,而后从学习到的价值函数中隐式地推导出策略,例如Q-learning和Sarsa,这些算法在训练过程中更新状态-动作值函数(Q值),而后依据Q值抉择最佳动作。 2.基于策略的智能体(Policy-Based Agents): 智能体间接学习策略,即在给定状态下抉择每个动作的概率分布。策略梯度(Policy Gradient)办法是一种常见的基于策略的强化学习办法,它通过梯度降落或其余优化算法来更新策略参数,以最大化累积处分。 3.演员-评论员智能体(Actor-Critic Agents): 这是一种综合了前两种办法的智能体。演员(Actor)负责学习策略,而评论员(Critic)负责学习价值函数。演员依据策略抉择动作,评论员基于环境的反馈和学习的价值函数提供无关动作的评估。这种联合能够帮忙解决价值和策略学习中的某些艰难问题,并且在理论利用中体现出很好的性能。 ...

August 18, 2023 · 2 min · jiezi

关于强化学习:DeepRoute-Lab-深入浅出强化学习原理篇

强化学习(Reinforcement Learning,RL),是机器学习的根底范式和方法论之一。本文尝试通过对强化学习核心思想和原理的介绍,让读者可能疾速把握强化学习的根底,从而更好地开启下一阶段的学习。 01RL是什么?强化学习(Reinforcement Learning,RL),又被称为激励学习、评估学习或者加强学习,是机器学习的范式和方法论之一;用于形容和解决智能体(agent)在与环境的交互过程中,通过学习策略达成回报最大化或者实现特定指标的问题。机器学习的三大类别:a. 监督学习b. 无监督学习c. 强化学习图一 机器学习的三大类别 咱们能够通过对狗的训练,来大略领会一下强化学习:如果狗执行了咱们的指令(action),咱们就给予骨头等处分(reward)如果狗不执行咱们的指令(action),咱们就给予一些惩办(负向的reward)通过肯定工夫的强化(重复)训练,狗就学会了对指令的执行图二 狗的训练对于狗的训练,能够看作一个单步(step)或者单幕(episode)的强化学习过程,而实在场景的RL,应该是多幕(episode)的(或者有限)。注:强化学习中,每一步的信息能够用 <状态, 动作, 处分> 的三元组示意,每一幕是指过程终止前的所有步的信息(也被称之为轨迹),这在上面的章节中会具体介绍。 02马尔可夫性质&马尔可夫决策过程马尔可夫决策过程(Markov decision process,MDP)是强化学习的重要概念。要用强化学习解决一个理论问题,就须要把这个问题形象为马尔可夫决策过程。马尔可夫决策过程,合乎马尔可夫性质(Markov property)。 2.1 马尔可夫性质什么是马尔可夫性质呢?当一个随机过程,某时刻的状态只取决于上一时刻的状态时,咱们就称该随机过程具备马尔可夫性质(Markov property),用公式示意为 换句话说,在给定当初的状态时,它的将来与过来状态是条件独立的。具备马尔可夫性质的随机过程,又称为马尔可夫过程(Markov  process)。 图三 马尔可夫性质 2.2 马尔可夫决策过程(Markov decision process)马尔可夫决策过程在马尔可夫性质的根底上减少了一个决策者管制;它提供了一个数学框架,用于后果局部随机局部受决策者管制影响的状况下对决策建模。某时刻的状态取决于上一个时刻的状态和所采取的口头,用公式示意为 图四 马尔可夫决策过程强化学习问题,能够形象为马尔可夫决策过程,只是采取的每一个action,除了随同着状态转移之外,还会失去一个reward。 03强化学习问题的形成元素正如下面所说的,强化学习问题,在马尔可夫决策过程的根底上引入状态转移的处分(reward)。图五 强化学习的根本元素基于上图,咱们能够把RL的问题或者场景元素分为3大类:1. 根本元素,能够了解为比拟实体的元素    a.  Agent    b.  Environment    c.  Goal(要实现的指标)2. 次要元素,基于Markov process的形象,结构求解的条件    a.  State (包含以后的状态s和下一个工夫步的状态 s')    b.  Action    c.  Reward3. 外围元素,是RL问题求解的外围所在    a.  Value(价值)    b.  Policy(策略) 那么要用强化学习解决问题,就须要对policy和value有足够的理解。 04策略(Policy)&价值(Value)咱们先来明确几个术语:○ (单步)处分 reward,用r示意。○   多幕工作累积的reward,或者discounted reward,咱们称之为回报(Return),用大写的来示意。可能是取自 Gain or Global Return 首字母○   状态变量空间和动作变量空间别离计作和。 ...

February 21, 2023 · 2 min · jiezi