关于深度学习:AI小白必读深度学习迁移学习强化学习别再傻傻分不清

摘要：诸多对于人工智能的风行词汇萦绕在咱们耳边，比方深度学习 (Deep Learning)、强化学习 (Reinforcement Learning)、迁徙学习 (Transfer Learning)，不少人对这些高频词汇的含意及其背地的关系感到困惑，明天就为大家理清它们之间的关系和区别。

深度学习的胜利和倒退，得益于算力的显著晋升和大数据，数字化后产生大量的数据，可通过大量的数据训练来发现数据的法则，从而实现基于监督学习的数据预测。

基于神经网络的深度学习次要利用于 图像、文本、语音等畛域。

2016 年的 NIPS 会议上，吴恩达给出了一个将来 AI 方向的技术倒退图：

监督学习（Supervised learning）是目前商用场景最多，成熟度最高的 AI 技术，而下一个商用的 AI 技术将会是迁徙学习（Transfer Learning），这也是 Andrew 预测将来五年最有可能走向商用的 AI 技术。

迁徙学习：用相干的、相似数据来训练，通过迁徙学习来实现模型自身的泛化能力，是如何将学习到常识从一个场景迁徙到另一个场景。

拿图像识别来说，从白天到早晨，从冬天到夏天，从辨认中国人到辨认外国人……

借用一张示意图（From：A Survey on Transfer Learning）来进行阐明：

迁徙学习的价值体现在：

1. 一些场景的数据根本无法采集，这时迁徙学习就很有价值；

2. 复用现有常识域数据，已有的大量工作不至于齐全抛弃；

3. 不须要再去破费微小代价去从新采集和标定宏大的新数据集；

4. 对于疾速呈现的新畛域，可能疾速迁徙和利用，体现时效性劣势；

对于迁徙学习算法的实际总结：

通过原有数据和大量新畛域数据混同训练；
将原训练模型进行宰割，保留根底模型（数据）局部作为新畛域的迁徙根底；
通过三维仿真来失去新的场景图像（OpenAI 的 Universe 平台借助赛车游戏来训练）；
借助反抗网络 GAN 进行迁徙学习的办法；

强化学习：全称是 Deep Reinforcement Learning（DRL），让机器有了自我学习、自我思考的能力。

目前强化学习次要用在游戏 AI 畛域，最闻名的应该算 AlphaGo 的围棋大战。强化学习是个简单的命题，Deepmind 大神 David Silver 将其了解为这样一种交叉学科：

实际上，强化学习是一种摸索式的学习办法，通过一直“试错”来失去改良，不同于监督学习的中央是强化学习自身没有 Label，每一步的 Action 之后它无奈失去明确的反馈（在这一点上，监督学习每一步都能进行 Label 比对，失去 True or False）。

强化学习是通过以下几个元素来进行组合形容的：

对象（Agent）

也就是咱们的智能主题，比方 AlphaGo。

环境（Environment）

Agent 所处的场景-比方下围棋的棋盘，以及其所对应的状态（State）-比方以后所对应的棋局。

Agent 须要从 Environment 感知来获取反馈（以后局势对我是否更无利）。

动作 (Actions)

在每个 State 下，能够采取什么口头，针对每一个 Action 剖析其影响。

处分 (Rewards)

执行 Action 之后，失去的处分或惩办，Reward 是通过对环境的察看失去。

点击关注，第一工夫理解华为云陈腐技术~

关于深度学习:AI小白必读深度学习迁移学习强化学习别再傻傻分不清

一. 深度学习：

二. 迁徙学习：

三. 强化学习：