共计 1338 个字符,预计需要花费 4 分钟才能阅读完成。
摘要:诸多对于人工智能的风行词汇萦绕在咱们耳边,比方深度学习 (Deep Learning)、强化学习 (Reinforcement Learning)、迁徙学习 (Transfer Learning),不少人对这些高频词汇的含意及其背地的关系感到困惑,明天就为大家理清它们之间的关系和区别。
一. 深度学习:
深度学习的胜利和倒退,得益于算力的显著晋升和大数据,数字化后产生大量的数据,可通过大量的数据训练来发现数据的法则,从而实现基于监督学习的数据预测。
基于神经网络的深度学习次要利用于 图像、文本、语音等畛域。
2016 年的 NIPS 会议上,吴恩达给出了一个将来 AI 方向的技术倒退图:
监督学习(Supervised learning)是目前商用场景最多,成熟度最高的 AI 技术,而下一个商用的 AI 技术将会是迁徙学习(Transfer Learning),这也是 Andrew 预测将来五年最有可能走向商用的 AI 技术。
二. 迁徙学习:
迁徙学习:用相干的、相似数据来训练,通过迁徙学习来实现模型自身的泛化能力,是如何将学习到常识从一个场景迁徙到另一个场景。
拿图像识别来说,从白天到早晨,从冬天到夏天,从辨认中国人到 辨认外国人……
借用一张示意图(From:A Survey on Transfer Learning)来进行阐明:
迁徙学习的价值体现在:
1. 一些场景的数据根本无法采集,这时迁徙学习就很有价值;
2. 复用现有常识域数据,已有的大量工作不至于齐全抛弃;
3. 不须要再去破费微小代价去从新采集和标定宏大的新数据集;
4. 对于疾速呈现的新畛域,可能疾速迁徙和利用,体现时效性劣势;
对于迁徙学习算法的实际总结:
- 通过原有数据和大量新畛域数据混同训练;
- 将原训练模型进行宰割,保留根底模型(数据)局部作为新畛域的迁徙根底;
- 通过三维仿真来失去新的场景图像(OpenAI 的 Universe 平台借助赛车游戏来训练);
- 借助反抗网络 GAN 进行迁徙学习 的办法;
三. 强化学习:
强化学习:全称是 Deep Reinforcement Learning(DRL),让机器有了自我学习、自我思考的能力。
目前强化学习次要用在游戏 AI 畛域,最闻名的应该算 AlphaGo 的围棋大战。强化学习是个简单的命题,Deepmind 大神 David Silver 将其了解为这样一种交叉学科:
实际上,强化学习是一种摸索式的学习办法,通过一直“试错”来失去改良,不同于监督学习的中央是 强化学习自身没有 Label,每一步的 Action 之后它无奈失去明确的反馈(在这一点上,监督学习每一步都能进行 Label 比对,失去 True or False)。
强化学习是通过以下几个元素来进行组合形容的:
对象(Agent)
也就是咱们的智能主题,比方 AlphaGo。
环境(Environment)
Agent 所处的场景-比方下围棋的棋盘,以及其所对应的状态(State)-比方以后所对应的棋局。
Agent 须要从 Environment 感知来获取反馈(以后局势对我是否更无利)。
动作 (Actions)
在每个 State 下,能够采取什么口头,针对每一个 Action 剖析其影响。
处分 (Rewards)
执行 Action 之后,失去的处分或惩办,Reward 是通过对 环境的察看失去。
点击关注,第一工夫理解华为云陈腐技术~