关于机器学习:机器学习算法系列〇-基础知识

浏览本文须要的背景知识点：一丢丢数学知识

人工智能（AI）在古代生存中起到越来越重要的位置，各种语音助手、旧电影色彩修复、淘宝京东等电商网站的智能举荐、拍照软件的智能美颜背景虚化等等性能背地都离不开人工智能的反对。

在搜索引擎搜寻人工智能的时候会发现机器学习会被同时联想进去，机器学习作为人工智能的一个分支学科，就是为了解决人工智能中的各种问题而提出来的。本算法系列文章将力求通俗易懂的介绍机器学习中的各种算法实现与利用。

古人云，“墙高基下，虽得必失”，没有巩固的根底是没法做成小事的，所以本文从基础知识开始，一步一步理解把握机器学习的相干常识。

维基百科中对机器学习 ¹ 的定义：

机器学习是一门人工智能的迷信，该畛域的次要钻研对象是人工智能，特地是如何在教训学习中改善具体算法的性能。

机器学习是对能通过教训主动改良的计算机算法的钻研。

机器学习是用数据或以往的教训，以此优化计算机程序的性能规范。

相较于维基百科中的定义，我感觉张志华老师在机器学习导论 ² 中总结更利于了解。

机器学习(Machine learning) = 矩阵(Matrix) + 统计(statistics) + 算法(algorithm) + 优化(optimation)。

机器学习就是从一堆数据（矩阵）中，通过建设模型（统计），通过各种优化后的算法，最初从中取得常识的学科。能够看到机器学习离不开数学，其中又以线性代数和微积分最为重要。上面两个大节将介绍机器学习中所用到的线性代数和微积分知识点。

线性代数作为数学中一个重要的分支，其内容极其宏大，本文只能选择性的介绍一些机器学习中所用到的线性代数常识，想更深刻的理解这门课程，请参看其余的教材书籍。

机器学习中大量应用到向量，例如线性组合外面的权重系数就能够示意为一个 n 维向量，将一个看起来很简单的连加运算，变成一个绝对简略的向量点积的运算。

同时具备大小和方向的量称为向量，例如以肯定速度（大小）朝某个方位（方向）飞出的子弹就是一个向量。在数学上，用坐标点的模式示意一个向量，也能够应用矩阵的模式示意一个向量，如下就示意一个三维空间中的一个向量。

对于任意向量 a，不管方向如何，若其大小为单位长度，则称其为 a 方向上的单位向量。另外只有大小的量成为标量，例如数字 5 就是一个标量。

向量的模即为向量的长度，用两个单竖线或者两个双竖线示意，计算方法如下式：

向量的加法 – 向量的各个维度对应相加

向量的减法 – 向量的各个维度对应相减

向量与标量的乘法 – 向量的各个维度与这个标量相乘

向量与向量的点积 – 两个向量各个维度相乘再求和，留神两个向量的点积为一个标量值

两个向量的夹角 – 两个向量的点积除以两个向量模的乘积等于两个向量夹角的余弦值，当两个单位向量的夹角为 0 度时，阐明这两个向量同向并共线，此时他们的点积最大为 1

机器学习中也须要应用到矩阵，例如对于输出有 M 个特色 N 个数据的训练集 X 能够示意成一个 M x N 的矩阵。

依照行和列排列的标量值造成的矩形阵列称为矩阵，矩阵也能够认为是多个向量的组合，矩阵个别用 M 示意。如下就示意了一个 2 行 3 列的矩阵，记为 2 x 3 矩阵，也能够看成由下面 A、B 向量组合而成的矩阵

方阵 – 行数和列数雷同的矩阵

三角矩阵 – 从左上到右下的对角线以下或者以上的元素都为 0 的方阵

对角矩阵 – 从左上到右下的对角线以外的元素都为 0 的方阵

单位矩阵 – 从左上到右下的对角线的元素都是 1 的对角矩阵，单位矩阵个别用 I 表

矩阵的加法 – 矩阵的对应行列相加

矩阵的减法 – 矩阵的对应行列相减

矩阵与标量的乘法 – 矩阵的对应行列与这个标量相乘

矩阵与矩阵的乘积 – 行向量与对应列向量的点积组成新矩阵的元素，如下图所示。留神两个矩阵只有第一个被乘矩阵的列数与第二个乘矩阵的行数雷同能力做乘法。A 是 m x n 矩阵，B 是 n x p 矩阵，则 A x B 是 m x p 矩阵。

<center>User:Bilou</center>

矩阵的转置 – 将矩阵的行列替换地位，A 是 m x n 矩阵，则 A 的转置是 n x m 矩阵。

逆矩阵 – 给定一个方阵 A，若存在一个方阵 B，使得 A x B = B x A = I (单位矩阵)，则称方阵 A 可逆，方阵 B 是 A 的逆矩阵。因为只有方阵才有可能存在逆矩阵，利用上有局限性，所以人们又提出了一个狭义的逆矩阵，被称为伪逆矩阵，使得任意矩阵都存在伪逆矩阵。

行列式 – 方阵 A 的行列式记作 det(A)或|A|，当方阵 A 不可逆时，行列式为 0。行列式可通过拉普拉斯开展通过递归的形式失去，下式就是其中一种拉普拉斯开展的模式。

特征值与特征向量 – 给定一个方阵 A，它的特征向量通过线性变换后，失去的新向量依然与原向量放弃在同一直线上，但长度兴许会扭转。

奇怪值合成（SVD）- 任意一个 m x n 矩阵都能够分解成三个简略矩阵的乘积的模式。

矩阵的迹 – 方阵 A 的迹是从左上到右下的对角线上的元素的总和，记作 tr(A)。一个矩阵的迹是其特征值的总和。

微积分是钻研极限、微分、积分的一个数学分支，在机器学习中大部分只须要理解微分学的常识，所以本文只介绍微分相干的根底知识点。

极限 – 当一个有程序的数列往前延长时，如果存在一个无限数（非无限大的数），使这个数列能够有限地靠近这个数，这个数就是这个数列的极限。当 x 越大时，该函数趋近于 0，示意形式如下：

导数³ – 函数在某一点的导数为这一点左近的变化率，其几何意义为函数在这一点上的切线的斜率。下图直观的表白了导数的定义

<center>Кубриков</center>

导数列表 – 常见函数的导数

导数运算

偏导数 – 一个多变量的函数对其中一个变量求导数，其余变量放弃不变

梯度 – 在多变量函数在点 P 的梯度是函数在点 P 上的偏导数为重量的向量。梯度不是零向量时，它的方向是函数在 P 上最大增长的方向，大小是其增长率

雅可比矩阵（Jacobians Matrix）- 由多变量函数的一阶偏导数按肯定形式排列的矩阵

黑塞矩阵（Hessian Matrix）- 由多变量函数的二阶偏导数按肯定形式排列的方阵

https://zh.wikipedia.org/wiki…
http://ocw.sjtu.edu.cn/G2S/OC…
https://zh.wikipedia.org/wiki…

注：本文力求精确并通俗易懂，但因为笔者也是初学者，程度无限，如文中存在谬误或脱漏之处，恳请读者通过留言的形式批评指正

关于机器学习:机器学习算法系列〇-基础知识

一、引言

二、机器学习

三、线性代数

向量

定义

向量的模

向量运算

矩阵

定义

非凡矩阵

矩阵运算

四、微分

导数

高阶导数

五、思维导图

六、参考资料