关于人工智能:从零开始初识机器学习-京东云技术团队

本篇文章中咱们将对机器学习做全面的理解与介绍，其中第一章初识机器学习分为高低两个小章节，对机器学习是什么、机器学习由来以及机器学习的实践等开展阐明。目标是能让即使齐全没接触过机器学习的人也能在短时间对机器学习有一个全面理解。后续将推出机器学习的进阶内容，包含经典根底篇（线性模型、决策树、集成学习、聚类等），实战进阶篇（特色工程、模型训练与验证、交融与部署等）。本篇为第一章初识机器学习（上），咱们从这里开始，开启一个全新的学习旅程。

机器学习（Machine Learning，ML）是应用统计（或数学）技术从察看到的数据中构建模型（或零碎）的一个计算机科学畛域。机器学习用计算机程序模仿人的学习能力，从样本数据中学习失去常识和法则，而后用于理论的推断和决策。

从狭义上来说，机器学习可能赋予“机器”学习的能力，使其实现间接编程无奈实现的工作。但从实际意义上来说，机器学习是利用数据训练出模型，并应用模型进行预测的一种办法。“训练”与“预测”是机器学习的两个过程，“模型”则是过程两头的输入后果，“训练”产生“模型”，“模型”领导“预测”。接下来咱们把机器学习的过程与人类对历史教训演绎演绎的过程做个比对。

机器学习中的“训练”与“预测”过程能够对应到人类的“演绎”和“演绎”过程。通过这样的对应，咱们能够发现，机器学习的思维并不简单，仅仅是对人类在生活中学习成长的一个模仿。因为机器学习不是基于编程造成的后果，因而它的处理过程不是因果的逻辑，而是通过演绎思维得出的相关性论断。

人类对历史教训演绎过程

人类在成长、生存过程中积攒了很多的历史与教训。人类定期地对这些教训进行“演绎”，取得了生存的“法则”。当人类遇到未知的问题或者须要对将来进行“揣测”的时候，人类将应用这些“法则”，对未知问题与将来进行“演绎”，从而领导本人的生存和工作。

机器学习利用宽泛，在各方面都有其施展的空间，包含：数据分析与开掘、模式识别、虚构助手和交通预测等。从行业来看，在金融畛域（检测信用卡欺诈、证券市场剖析等）、互联网畛域（自然语言解决、语音辨认、搜索引擎等）、医学畛域、自动化及机器人畛域（无人驾驶、信号处理等）、游戏畛域、刑侦畛域等也都有所波及。

“数据挖掘”和”数据分析”通常被等量齐观，但无论是数据分析还是数据挖掘，都是在帮忙人们收集与剖析数据，使之成为信息并做出揣测与判断。因而能够将这两项合称为数据分析与开掘。数据分析与开掘是机器学习技术和大数据存储技术联合的产物，利用机器学习伎俩剖析海量数据，同时利用数据存储机制实现数据的高效读写。机器学习在数据分析与开掘畛域中领有无可取代的位置，2012 年 Hadoop 进军机器学习畛域就是一个很好的例子。

模式识别的应用领域宽泛，包含计算机视觉、医学图像剖析、光学文字辨认、自然语言解决、语音辨认、手写辨认、生物特色辨认、文件分类、搜索引擎等，而这些畛域也正是机器学习大展身手的舞台，因而模式识别与机器学习的关系越来越亲密。

Siri，Alexa，Google Now 都是虚构助手。在交互过程中，虚构助手会帮助查找信息，搜寻相干历史行为，或向其余资源（如电话应用程序）发送命令收集更多信息，以满足人们提出的需要。

生存中咱们常常应用 GPS 导航服务，机器学习可能帮忙咱们预测交通堵塞。以后高德地图，腾讯地图等都利用了机器学习技术，辨认拥挤路段，布局最优路线。

1957 年，Rosenblatt 创造了感知机（Perceptron），是神经网络的雏形，同时也是反对向量机的根底，在过后引起了不小的轰动。
1959 年，IBM 的写出了能够学习的西洋棋程序，并在 IBM Journal of Research and Development 期刊上发表了一篇名为《Some Studies in Machine Learning Using the Game of Checkers》的论文中，定义并解释了一个新词——机器学习（Machine Learning，ML）。将机器学习非正式定义为“在不间接针对问题进行编程的状况下，赋予计算机学习能力的一个钻研畛域”。
1960 年，Widrow 创造了 Delta 学习规定，即现在的最小二乘问题，立即被利用到感知机中，并且失去了一个极好的线性分类器。
1970 年，Seppo Linnainmaa 首次残缺地叙述了主动链式求导办法（Automatic Differentiation，AD），是驰名的反向流传算法（Back Propagation，BP）的雏形，但在过后并没有引起器重。
1974 年，Werbos 首次提出把 BP 算法的思维利用到神经网络，也就是多层感知机（Multilayer Perception，MLP），并在 1982 年实现，就是当初通用的 BP 算法，促成了第二次神经网络大倒退。
1985-1986 年，Rumelhart，Hinton 等许多神经网络学者胜利实现了实用的 BP 算法来训练神经网络，并在很长一段时间内 BP 都作为神经网络训练的专用算法。
1986 年，J.R.Quinlan 提出了另一个同样驰名的 ML 算法—决策树算法（Iterative Dichotomiser 3，ID3），决策树作为一个预测模型，代表的是对象属性与对象值之间的一种映射关系，而且紧随其后涌现出了很多相似或者改良算法，如 ID4，回归树，CART 等。
1995 年，Yan LeCun 提出了卷积神经网络（Convolution Neural Network，CNN），受生物视觉模型的启发，通常有至多两个非线性可训练的卷积层，两个非线性的固定卷积层，模仿视觉皮层中的 V1，V2，Simple cell 和 Complex cell，在手写字辨认等小规模问题上，获得了过后世界最好后果，然而在大规模问题上体现不佳。
1995 年，Vapnik 和 Cortes 提出了弱小的反对向量机（Support Vector Machine，SVM），次要思维是用一个分类超平面将样本离开从而达到分类成果，具备很强的实践论证和试验后果。至此，ML 分为 NN 和 SVM 两派。
1997 年，Freund 和 Schapire 提出了另一个松软的 ML 模型 AdaBoost，该算法最大的特点在于组合弱分类器造成强分类器，能够形象地表述为：“三个臭皮匠赛过诸葛亮”，分类成果比其它强分类器更好。
2001 年，随着核办法的提出，SVM 大占上风，它的次要思维就是通过将低维数据映射到高维，从而实现线性可分。至此，SVM 在很多畛域超过了 NN 模型。除此之外，SVM 还倒退了一系列针对 NN 模型的基础理论，包含凸优化、范化距离实践和核办法。
2001 年，Breiman 提出了一个能够将多个决策树组合起来的模型随机森林（Random Forest，RF），它能够解决大量的输出变量，有很高的准确度，学习过程很快，不会产生过拟合问题，具备很好的鲁棒性。
2001 年，Hochreiter 发现应用 BP 算法时，在 NN 单元饱和之后会产生梯度损失（梯度扩散）。简略来说就是训练 NN 模型时，超过肯定的迭代次数后，容易过拟合。NN 的倒退一度陷入停滞状态。

二十一世纪初，学界掀起了以“深度学习”为名的热潮。所谓深度学习？狭义地说就是“很多层”的神经网络。在若干测试和比赛上，尤其是波及语音、图像等简单对象的利用中，深度学习技术获得了优越性能。以往机器学习技术在利用中要获得好性能，对使用者的要求较高；而深度学习技术波及的模型复杂度十分高，以至于只有下工夫“调参”，只有把参数调节好，性能往往就好。因而，深度学习虽不足严格的实践根底，但它显著升高了机器学习利用者的门槛，为机器学习技术走向工程实际带来了便当。那么它为什么此时才热起来呢？有两个起因，一是数据量增大了，二是计算能力强了。深度学习模型领有大量参数，若数据样本少，则很容易“过拟合”。如此简单的模型、如此大的数据样本，若不足强力计算设施，根本无法求解。恰好人类进入了大数据时代，数据储量与计算设施都有了大倒退，才使得深度学习技术又焕发一春。

2006 年，Hinton 和他的学生在《Nature》上发表了一篇深度相信网络（Deep Belief Network，DBN）的文章，从此开启了深度学习（Deep Learning，DL）阶段，掀起了深度神经网络即深度学习的浪潮。
2009 年，微软研究院和 Hinton 单干钻研基于深度神经网络的语音辨认，历时两年获得成绩，彻底改变了传统的语音辨认技术框架，使得绝对误识别率升高 25%。
2012 年，Hinton 又率领学生在目前最大的图像数据库 ImageNet 上，基于深度神经网络对图分类问题获得了惊人的后果，将 Top5 错误率由 26% 大幅升高至 15%。（ImageNet 是一个计算机视觉零碎辨认我的项目，是目前世界上图像识别最大的数据库。是美国斯坦福的计算机科学家，模仿人类的识别系统建设的。可能从图片辨认物体。）
2012 年，由人工智能和机器学习顶级学者 Andrew Ng 和分布式系统顶级专家 Jeff Dean 领衔的梦幻阵容，开始打造 Google Brain 我的项目，用蕴含 16000 个 CPU 核的并行计算平台训练超过 10 亿个神经元的深度神经网络，在语音辨认和图像识别等畛域获得了突破性的停顿。该零碎通过剖析 YouTube 上选取的视频，采纳无监督的形式训练深度神经网络，可将图像主动聚类。在零碎中输出“cat”后，后果在没有外界干预的条件下，辨认出了猫脸。
2012 年，微软首席钻研官 Rick Rashid 在 21 世纪的计算大会上演示了一套主动同声传译零碎，将他的英文演讲实时转换成与他音色相近、字正腔圆的中文演讲。同声传译须要经验语音辨认、机器翻译、语音合成三个步骤。该零碎零打碎敲，晦涩的成果博得了统一认可，深度学习则是这一零碎中的关键技术。
2013 年，Google 收买了一家叫 DNN Research 的神经网络初创公司，这家公司只有三个人，Geoffrey Hinton 和他的两个学生。这次收买并不波及任何产品和服务，只是心愿 Hinton 能够将深度学习打造为反对 Google 将来的核心技术。同年，纽约大学传授，深度学习专家 Yann LeCun 加盟 Facebook，出任人工智能实验室主任，负责深度学习的研发工作，利用深度学习探寻用户图片等信息中蕴含的海量信息，心愿在将来能给用户提供更智能化的产品应用体验。
2013 年，百度成立了百度研究院及上司的深度学习研究所（Institute of Deep Learning，IDL），将深度学习利用于语音辨认和图像识别、检索，以及广告 CTR 预估（Click-Through-Rate Prediction，CTR），其中图片检索达到了国内领先水平。
2014 年，谷歌发表其首款成型的无人驾驶原型车制作结束，将会在 2015 年正式进行路测。
2016 年，谷歌旗下 DeepMind 公司开发的人工智能程序 AlphaGo 击败围棋职业九段选手李世石。
2017 年，DeepMind 团队颁布了最强版 AlphaGo，代号 AlphaGo Zero，它能在无任何人类输出的条件下，从空白状态学起，自我训练的工夫仅为 3 天，自我对弈的棋局数量为 490 万盘，能以 100:0 的战绩击败前辈。

人工智能（Artificial Intelligence，AI）是计算机科学的一个分支，它希图理解智能的实质，生产出一种能比肩人类，并做出智能反馈的机器。咱们都晓得机器学习是人工智能最重要的一种实现办法，但机器学习并不是人工智能一开始就采纳的办法。人工智能的倒退次要经验了逻辑推理，专家系统，机器学习三个阶段。

第一阶段的重点是逻辑推理，例如数学定理的证实，这类办法采纳符号逻辑来模仿人类智能。
第二阶段的重点是专家系统，这类办法为各个领域的问题建设专家知识库，利用这些常识来实现推理和决策。比方将医生的诊断教训转化成一个知识库，而后用这些常识对病人进行诊断。
第三阶段的重点即为机器学习，现在的人工智能次要依赖的不再是逻辑推理和专家系统，而是建设在机器学习的根底上解决简单问题。无论是基于数学的机器学习模型，还是基于神经网络的深度学习模型，都沉闷在现在大多数人工智能应用程序之中。

深度学习（Deep Learning，DL）是机器学习的一个重要分支，深度学习和机器学习的关系属于继承和倒退的关系。在很多人工智能问题上，深度学习的办法加上大数据的呈现以及计算机运行速度的进步，更突出了人工智能的前景。比方，主动驾驶汽车，足以彻底改变咱们的出行形式，它的实现就须要深度学习的图像识别技术，须要用到卷积神经网络（Convolutional Neural Networks, CNN）来辨认马路上的行人、红绿灯等。
为了更清晰的意识深度学习，咱们首先介绍神经网络（Neural Networks, NN），顾名思义，它是一种模拟动物神经网络行为特色，进行分布式并行信息处理的算法数学模型。神经网络有输出层、暗藏层（中间层）以及输入层，其中输出层负责神经网络的输出，输入层负责产生输出的映射。机器学习中的逻辑回归，能够看作是一层的神经网络，即除了输出层、输入层之外只有一个暗藏层。

而深度学习，就是指神经网络应用了很多暗藏层。

那么深度学习的每一层都在学什么？？

当你输出一张脸部的照片时，神经网络的第一中间层，能够看成是一个特色探测器或者边缘探测器，它会去找这张照片的各个边缘（第一张图片）；第二中间层又把照片里组成边缘的像素们放在一起看，而后它能够把被探测到的边缘组合成面部的不同局部（第二张图片），有眼睛、鼻子等；最初再把这些局部放在一起，比方鼻子眼睛嘴巴，就能够辨认或者探测不同的人脸（第三张图片）。

数据挖掘（Data Mining，DM）是指从大量的数据中搜寻暗藏于其中信息的过程。机器学习是数据挖掘的重要工具之一，但数据挖掘不仅仅要钻研、拓展、利用一些机器学习办法，还要通过许多非机器学习技术解决大规模数据与数据乐音等理论问题。大体上看，数据挖掘能够视为机器学习和大数据的穿插，它次要利用机器学习提供的技术来剖析海量数据，利用大数据技术来治理海量数据。

1. 统计学简述

统计学（Statistics）是基于数据构建概率统计模型并使用模型对数据进行剖析与预测的一门学科。统计学依靠背地的数学实践，在远早于机器学习大暴发的几十年，率先从解释因果的角度，致力寻找最优函数（或模型）。统计学里最重要的两个局部是回归剖析和假设检验。其余的办法或者技术在统计学这个大框架下，最终也是为了这两者服务的。回归剖析提供了解释因果的武器，假设检验则给这项武器装上了弹药。单纯的线性回归用最小二乘法求解迫近事实的假相，再应用显著性测验，检测变量的显著性、模型的显著性、模型的拟合精度。当然是否属于线性，也能够应用假设检验的办法检测。非线性回归的问题，应用极大似然预计或者偏最小二乘回归求解模型，后续的显著性测验依然是一样的思路。

2. 机器学习与统计学比照

统计学是个与机器学习高度重叠的学科，统计学近似等于机器学习。然而在某种程度上两者是有别离的，这个别离在于：统计学是实践驱动，对数据分布进行假如，以弱小的数学实践解释因果，重视参数推断，偏重统计模型的倒退与优化；机器学习是数据驱动，依赖于大数据规模预测将来，弱化了收敛性问题，重视模型预测，偏重解决问题。

这里咱们以《算法导论》中所诠释的算法作为机器学习算法的比拟对象。其相同点，两者的目标都是通过制订指标，减少束缚，求得最优的模型。不同点是《算法导论》里的“算法”，实质上是如何更有效率地求解具备准确解的问题。效率，能够是计算工夫更短，也能够是计算过程所须要的空间更少。而机器学习算法要解决的问题个别没有准确解，也不能用穷举或遍历这种步骤明确的办法求解。这里须要强调的是“学习”这个属性，即心愿算法自身可能依据给定的数据或变动的计算环境而动静地发现新的法则，甚至扭转机器学习算法的逻辑和行为。

作者：京东物流星火团队
起源：京东云开发者社区

关于人工智能:从零开始初识机器学习-京东云技术团队

1 机器学习形容

1.1 机器学习是什么？

1.2 机器学习的利用范畴

1.2.1 数据分析与开掘

1.2.2 模式识别

1.2.3 虚构助手

1.2.4 交通预测

2 机器学习发展史

2.1 浅层学习阶段

2.2 深度学习阶段

3 易混同畛域梳理

3.1 机器学习与人工智能

3.2 机器学习与深度学习

3.3 机器学习与数据挖掘

3.4 机器学习与统计学

3.5 机器学习算法与“一般”算法的异同

Just My Socks（注册教程内含优惠码）

关于人工智能:从零开始初识机器学习-京东云技术团队

1 机器学习形容

1.1 机器学习是什么？

1.2 机器学习的利用范畴

1.2.1 数据分析与开掘

1.2.2 模式识别

1.2.3 虚构助手

1.2.4 交通预测

2 机器学习发展史

2.1 浅层学习阶段

2.2 深度学习阶段

3 易混同畛域梳理

3.1 机器学习与人工智能

3.2 机器学习与深度学习

3.3 机器学习与数据挖掘

3.4 机器学习与统计学

3.5 机器学习算法与“一般”算法的异同

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）