关于数学:图解AI数学基础-线性代数与矩阵论

66次阅读

共计 7198 个字符，预计需要花费 18 分钟才能阅读完成。

作者：韩信子 @ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/83
本文地址：http://www.showmeai.tech/article-detail/162
申明：版权所有，转载请分割平台与作者并注明出处

一个标量就是一个独自的数。只具备数值大小，没有方向（局部有正负之分），运算遵循个别的代数法令。

个别用小写的变量名称示意。
品质 $m $、速率 $v $、工夫 $t $、电阻 $\rho $ 等物理量，都是数据标量。

向量指具备大小和方向的量，状态上看就是一列数。

通常赋予向量 粗体小写 的名称；手写体则在字母上加一个向右的箭头。
向量中的元素是有序排列的，通过索引能够确定每个元素。
以下两种形式，能够明确示意向量中的元素时（留神用方括号）。
能够把向量看作空间中的有向线段，向量的每个组成元素，对应向量在不同的坐标轴上的投影长度。

AI 中的利用：在机器学习中，单条数据样本的表征都是以向量化的模式来实现的。向量化的形式能够帮忙 AI 算法在迭代与计算过程中，以更高效的形式实现。

矩阵是二维数组，其中的每一个元素被两个索引确定。矩阵在机器学习中至关重要，无处不在。

通常会赋予矩阵粗体大写的变量名称。

AI 中的利用 ：样本以矩阵状态示意：$m $ 条数据 / 样本，$n $个特色的数据集，就是一个 $m \times n $的矩阵。

几何代数中定义的张量，是基于向量和矩阵的推广。

标量，能够视为零阶张量
向量，能够视为一阶张量
矩阵，能够视为二阶张量

图片以矩阵状态示意：将一张彩色图片示意成一个 $H \times W \times C $的三阶张量，其中 $H $是高，$W $是宽，$C $通常取 3，示意黑白图 3 个色彩通道。
在这个例子的根底上，将这一定义持续扩大，即：用四阶张量（样本，高度，宽度，通道）示意一个蕴含多张图片的数据集，其中，样本示意图片在数据集中的编号。
用五阶张量（样本，帧速，高度，宽度，通道）示意视频。

AI 中的利用：张量是深度学习中一个十分重要的概念，大部分的数据和权重都是以张量的状态存储的，后续的所有运算和优化算法也都是基于张量进行的。

范数是一种强化了的间隔概念；简略来说，能够把『范数』了解为『间隔』。

在数学上，范数包含『向量范数』和『矩阵范数』：

向量范数（Vector Norm），表征向量空间中向量的大小。向量空间中的向量都是有大小的，这个大小就是用范数来度量。不同的范数都能够来度量这个大小，就好比米和尺都能够来度量远近一样。
矩阵范数（Matrix Norm），表征矩阵引起变动的大小。比方，通过运算 $\boldsymbol{A}\boldsymbol{X} = \boldsymbol{B} $，能够将向量 $\boldsymbol{X} $变动为 $\boldsymbol{B} $，矩阵范数就能够度量这个变动的大小。

向量范数的计算：

对于 $\mathrm{p} – $范数，如果 $\boldsymbol{x}=\left[x_{1}, x_{2}, \cdots, x_{n}\right]^{\mathrm{T}} $，那么向量 $\boldsymbol{x} $的 $\mathrm{p} – $范数就是 $|\boldsymbol{x}|_{p}=\left(\left|x_{1}\right|^{p}+\left|x_{2}\right|^{p}+\cdots+\left|x_{n}\right|^{p}\right)^{\frac{1}{p}} $。

L1 范数：$|| \boldsymbol{x}||_{1}=\left|x_{1}\right|+\left|x_{2}\right|+\left|x_{3}\right|+\cdots+\left|x_{n}\right| $

$\mathrm{p} =1 $时，就是 L1 范数，是 $\boldsymbol{x} $向量各个元素的绝对值之和。
L1 范数有很多的名字，例如咱们相熟的曼哈顿间隔、最小绝对误差等。

L2 范数：$|\boldsymbol{x}|_{2}=\left(\left|x_{1}\right|^{2}+\left|x_{2}\right|^{2}+\left|x_{3}\right|^{2}+\cdots+\left|x_{n}\right|^{2}\right)^{1 / 2} $

$\mathrm{p} =2 $时，就是 L2 范数，是 $\boldsymbol{x} $向量各个元素平方和的开方。
L2 范数是咱们最罕用的范数，欧氏间隔就是一种 L2 范数。

AI 中的利用 ：在机器学习中，L1 范数和 L2 范数很常见，比方『 评估准则的计算 』、『 损失函数中用于限度模型复杂度的正则化项』等。

将数学对象分解成多个组成部分，能够找到他们的一些属性，或者能更洼地了解他们。例如，整数能够合成为质因数，通过 $12=2 \times 3 \times 3 $能够失去『12 的倍数能够被 3 整除，或者 12 不能被 5 整除』。

特征向量 ：方阵 $\boldsymbol{A} $ 的特征向量，是指与 $\boldsymbol{A} $相乘后相当于对该向量进行缩放的非零向量，即 $\boldsymbol{A}\nu =\lambda \nu $。
特征值 ：标量 $\lambda $ 被称为这个特征向量对应的特征值。

应用特色合成去剖析矩阵 $\boldsymbol{A} $时，失去特征向量 $\nu $形成的矩阵 $\boldsymbol{Q} $和特征值形成的向量 $\boldsymbol{\Lambda} $，咱们能够从新将 $\boldsymbol{A} $写作：$\boldsymbol{A} = \boldsymbol{Q} \boldsymbol{\Lambda} \boldsymbol{Q}^{-1} $

矩阵的特色合成是有前提条件的。只有可对角化的矩阵，才能够进行特色合成。理论很多矩阵不满足这一条件，这时候怎么办呢？

将矩阵 $\boldsymbol{A} $分解成三个矩阵的乘积 $\boldsymbol{A} = \boldsymbol{U} \boldsymbol{D} \boldsymbol{V}^{-1} $。

假如 $\boldsymbol{A} $是一个 $mn $矩阵，那么 $\boldsymbol{U} $是一个 $mm $矩阵，$D $是一个 $mn $矩阵，$V $是一个 $nn $矩阵。
$\boldsymbol{U} \boldsymbol{V} \boldsymbol{D} $这几个矩阵都领有非凡的构造：
- $\boldsymbol{U} $和 $\boldsymbol{V} $都是正交矩阵，矩阵 $\boldsymbol{U} $的列向量被称为左奇怪向量，矩阵 $\boldsymbol{V} $ 的列向量被称右奇怪向量。
- $\boldsymbol{D} $是对角矩阵（留神，$\boldsymbol{D} $不肯定是方阵）。对角矩阵 $\boldsymbol{D} $对角线上的元素被称为矩阵 $\boldsymbol{A} $的奇怪值。

AI 中的利用：SVD 最有用的一个性质可能是拓展矩阵求逆到非方矩阵上。而且大家在举荐零碎中也会见到基于 SVD 的算法利用。

假如在上面问题中，咱们想通过矩阵 $\boldsymbol{A} $的左逆 $\boldsymbol{B} $来求解线性方程：$\boldsymbol{A} x=y $，等式两边同时左乘左逆 B 后，失去：$x=\boldsymbol{B} y $。是否存在惟一的映射将 $\boldsymbol{A} $映射到 $\boldsymbol{B} $，取决于问题的模式：

如果矩阵 $\boldsymbol{A} $的行数大于列数，那么上述方程可能没有解；
如果矩阵 $\boldsymbol{A} $的行数小于列数，那么上述方程可能有多个解。

Moore-Penrose 伪逆使咱们可能解决这种状况，矩阵 $\boldsymbol{A} $的伪逆定义为：

$$\boldsymbol{A}^{+}=\lim _{a \rightarrow 0}\left(\boldsymbol{A}^{T} \boldsymbol{A}+\alpha \boldsymbol{I}\right)^{-1} \boldsymbol{A}^{T}$$

然而计算伪逆的理论算法没有基于这个式子，而是应用上面的公式：

$$
\boldsymbol{A}^{+}=\boldsymbol{U} \boldsymbol{D}^{+} \boldsymbol{V}^{T}
$$

矩阵 $\boldsymbol{U} $、$\boldsymbol{D} $和 $\boldsymbol{V}^{T} $是矩阵 $\boldsymbol{A} $奇怪值合成后失去的矩阵；
对角矩阵 $\boldsymbol{D} $的伪逆 $\boldsymbol{D}^{+} $是其非零元素取倒之后再转置失去的。

在机器学习里，大部分运算都是基于向量的，一份数据集蕴含 n 个特色字段，那每一条样本就能够示意为 n 维的向量，通过计算两个样本对应向量之间的间隔值大小，有些场景下能反映出这两个样本的类似水平。还有一些算法，像 KNN 和 K -means，十分依赖间隔度量。

设有两个 $n $维变量：

$$A=[x_{11}, x_{12},…,x_{1n} ] ^{T}$$

$$B=[x_{21} ,x_{22} ,…,x_{2n} ] ^{T}$$

一些罕用的间隔公式定义如下：

曼哈顿间隔也称为城市街区间隔，数学定义如下：

$$d_{12} =\sum_{k=1}^{n}{| x_{1k}-x_{2k} | }$$

曼哈顿间隔的 Python 实现：

 import numpy as np
vector1 = np.array([1,2,3])
vector2 = np.array([4,5,6])
 
manhaton_dist = np.sum(np.abs(vector1-vector2))
print("曼哈顿间隔为", manhaton_dist)

欧氏间隔其实就是 L2 范数，数学定义如下：

$$d_{12} =\sqrt{\sum_{k=1}^{n}{(x_{1k} -x_{2k} ) ^{2} } }$$

欧氏间隔的 Python 实现：

 import numpy as np
vector1 = np.array([1,2,3])
vector2 = np.array([4,5,6])
 
eud_dist = np.sqrt(np.sum((vector1-vector2)**2))
print("欧式间隔为", eud_dist)

从严格意义上讲，闵可夫斯基间隔不是一种间隔，而是一组间隔的定义：

$$d_{12} =\sqrt[p]{\sum_{k=1}^{n}{(x_{1k} -x_{2k} ) ^{p} } }$$

实际上，当 $p=1 $ 时，就是曼哈顿间隔；当 $p=2 $ 时，就是欧式间隔。

切比雪夫间隔就是无穷范数，数学表达式如下：

$$d_{12} =max(| x_{1k}-x_{2k} |)$$

切比雪夫间隔的 Python 实现如下：

 import numpy as np
vector1 = np.array([1,2,3])
vector2 = np.array([4,5,6])
 
cb_dist = np.max(np.abs(vector1-vector2))
print("切比雪夫间隔为", cb_dist)

余弦类似度的取值范畴为[-1,1]，能够用来掂量两个向量方向的差别：

夹角余弦越大，示意两个向量的夹角越小；
当两个向量的方向重合时，夹角余弦取最大值 1；
当两个向量的方向齐全相同时，夹角余弦取最小值 -1。

机器学习中用这一概念来掂量样本向量之间的差别，其数学表达式如下：

$$cos\theta =\frac{AB}{| A | |B |} =\frac{\sum_{k=1}^{n}{x_{1k}x_{2k} } }{\sqrt{\sum_{k=1}^{n}{x_{1k}^{2} } } \sqrt{\sum_{k=1}^{n}{x_{2k}^{2} } } }$$

夹角余弦的 Python 实现：

 import numpy as np
vector1 = np.array([1,2,3])
vector2 = np.array([4,5,6])
 
cos_sim = np.dot(vector1, vector2)/(np.linalg.norm(vector1)*np.linalg.norm(vector2))
print("余弦类似度为", cos_sim)

汉明间隔定义的是两个字符串中不雷同位数的数目。例如，字符串‘1111’与‘1001’之间的汉明间隔为 2。信息编码中个别应使得编码间的汉明间隔尽可能的小。

$$d_{12} = \sum_{k=1}^{n} \left (x_{1k} \oplus x_{2k}\right )$$

汉明间隔的 Python 实现：

 import numpy as np
a=np.array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0])
b=np.array([1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1])
hanm_dis = np.count_nonzero(a!=b)
print("汉明间隔为", hanm_dis)

两个汇合 \(A\( 和 \( B\( 的交加元素在 \( A\( 和 \( B\( 的并集中所占的比例称为两个汇合的杰卡德系数，用符号 \( J(A,B)\(示意，数学表达式为：

$$J(A,B) =\frac{| A\cap B|}{|A\cup B |}$$

杰卡德类似系数是掂量两个汇合的类似度的一种指标。个别能够将其用在掂量样本的类似度上。

与杰卡德系数相同的概念是杰卡德间隔，其定义式为：

$$J_{\sigma} =1-J(A,B) =\frac{| A\cup B | -| A\cap B |}{| A\cup B |}$$

杰卡德间隔的 Python 实现：

 import numpy as np
vec1 = np.random.random(10)>0.5
vec2 = np.random.random(10)>0.5
 
vec1 = np.asarray(vec1, np.int32)
vec2 = np.asarray(vec2, np.int32)
 
up=np.double(np.bitwise_and((vec1 != vec2),np.bitwise_or(vec1 != 0, vec2 != 0)).sum())
down=np.double(np.bitwise_or(vec1 != 0, vec2 != 0).sum())
jaccard_dis =1-(up/down)
print("杰卡德间隔为", jaccard_dis)

图解线性代数与矩阵论
图解信息论
图解微积分与最优化

图解 Python 编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解 AI 数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程

正文完

数学

发表至：数学

2022-02-24

0

关于数学:关于坐标轴的旋转及绕某一点旋转后坐标值求解

关于数学:如何在-Matlab-中生成正态分布的整数矩阵

关于数学:Golang力扣LeetBook初级算法字符串整数反转

关于数学:Kev的数学建模模型学习1线性规划模型

关于android:zookeeper原理篇Zookeeper选举过程分析

关于数学:图解AI数学基础-线性代数与矩阵论

1. 标量（Scalar）

2. 向量（Vector）

3. 矩阵（Matrix）

4. 张量（Tensor）

5. 范数（Norm）

6. 特色合成（Eigen-decomposition）

7. 奇怪值合成（Singular Value Decomposition，SVD）

8.Moore-Penrose 狭义逆 / 伪逆（Moore-Penrose Pseudoinverse）

9. 罕用的间隔度量

1）曼哈顿间隔（Manhattan Distance）

2）欧氏间隔（Euclidean Distance）

3）闵氏间隔（Minkowski Distance）

4）切比雪夫间隔（Chebyshev Distance）

5）余弦类似度（Cosine Similarity）

6）汉明间隔（Hamming Distance）

7）杰卡德系数（Jaccard Index）

8）杰卡德间隔（Jaccard Distance）

ShowMeAI 相干文章举荐

ShowMeAI 系列教程举荐

Just My Socks（注册教程内含优惠码）

	import numpy as np
	vector1 = np.array([1,2,3])
	vector2 = np.array([4,5,6])

	manhaton_dist = np.sum(np.abs(vector1-vector2))
	print("曼哈顿间隔为", manhaton_dist)

	import numpy as np
	a=np.array([1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 0])
	b=np.array([1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 1])
	hanm_dis = np.count_nonzero(a!=b)
	print("汉明间隔为", hanm_dis)

	import numpy as np
	vec1 = np.random.random(10)>0.5
	vec2 = np.random.random(10)>0.5

	vec1 = np.asarray(vec1, np.int32)
	vec2 = np.asarray(vec2, np.int32)

	up=np.double(np.bitwise_and((vec1 != vec2),np.bitwise_or(vec1 != 0, vec2 != 0)).sum())
	down=np.double(np.bitwise_or(vec1 != 0, vec2 != 0).sum())
	jaccard_dis =1-(up/down)
	print("杰卡德间隔为", jaccard_dis)

关于数学:图解AI数学基础-线性代数与矩阵论

1. 标量（Scalar）

2. 向量（Vector）

3. 矩阵（Matrix）

4. 张量（Tensor）

5. 范数（Norm）

6. 特色合成（Eigen-decomposition）

7. 奇怪值合成（Singular Value Decomposition，SVD）

8.Moore-Penrose 狭义逆 / 伪逆（Moore-Penrose Pseudoinverse）

9. 罕用的间隔度量

1）曼哈顿间隔（Manhattan Distance）

2）欧氏间隔（Euclidean Distance）

3）闵氏间隔（Minkowski Distance）

4）切比雪夫间隔（Chebyshev Distance）

5）余弦类似度（Cosine Similarity）

6）汉明间隔（Hamming Distance）

7）杰卡德系数（Jaccard Index）

8）杰卡德间隔（Jaccard Distance）

ShowMeAI 相干文章举荐

ShowMeAI 系列教程举荐

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）