关于数学:图解AI数学基础-概率与统计

作者：韩信子 @ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/83
本文地址：http://www.showmeai.tech/article-detail/163
申明：版权所有，转载请分割平台与作者并注明出处

概率（Probability），反映随机事件呈现的可能性大小。事件 $A $ 呈现的概率，用 $P(A) $示意。

概率论（Probability Theory），是钻研随机景象数量法则的数学分支，度量事物的不确定性。

机器学习大部分时候解决的都是不确定量或随机量。因而，绝对计算机科学的其余许多分支而言，机器学习会更多地应用概率论。很多典型的机器学习算法模型也是基于概率的，比方奢侈贝叶斯（Naive Bayesian）等。

在人工智能畛域，概率论有宽泛的利用：
能够借助于概率办法设计算法（概率型模型，如奢侈贝叶斯算法）。
能够基于概率与统计进行预测剖析（如神经网络中的 softmax）。

简略地说，随机变量是指随机事件的数量体现，是能够『随机』地取不同值的『变量』。通常，用大写字母来示意随机变量自身，而用带数字下标的小写字母来示意随机变量可能取到的值。

例如，$X $为随机变量，$x_{1} $、$x_{2} $、$x_{i} $是随机变量 $X $可能的取值。

随机变量能够分为『离散型随机变量』和『连续型随机变量』：

离散型随机变量（discrete random variable）：即在肯定区间内变量取值为无限个（或可数个）。例如，某地区某年的出世人口数。
连续型随机变量（continuous random variable）：即在肯定区间内变量取值为有限个（或数值无奈一一列举进去）。例如，某地区男性衰弱成人的体重值。

将几个随机变量按程序放在一起，组成向量的模式，就是随机向量。

在样本空间全副都一样的状况下，一个 $n $维的随机向量是

$$
x \overrightarrow{(\xi)}=\left(\begin{array}{c}
x_{1}(\xi) \\
x_{2}(\xi) \\
\cdots \\
x_{n}(\xi)
\end{array}\right)
$$

其中，$\xi $就是样本空间中的样本点。随机变量是1维随机向量的非凡状况。

狭义上，概率分布用于表述随机变量取值的概率法则。或者说，给定某随机变量的取值范畴，概率分布示意该随机事件呈现的可能性。

广义地，概率分布指随机变量地概率分布函数，也称累积散布函数（Cumulative Distribution Function，CDF）。

离散型随机变量的概率分布：

应用散布列形容离散型随机变量的概率分布，即给出离散型随机变量的全副取值及每个值的概率。
常见的离散型随机变量的散布有：单点散布、0- 1 散布、几何散布、二项分布、泊松散布等。

连续型随机变量的概率分布：

如果随机变量 $X $的散布函数为 $F(x) $，存在非负函数 $f (x) $使对于任意实数 $x $有 $F(x)=\int_{-\infty}^{x} f(t) d t $，则称 $X $为连续型随机变量，其中函数 $f(x) $称为 $X $的概率密度函数。

常见的连续型随机变量的散布有：正态分布、均匀分布、指数分布、$t- $散布、$F- $散布、$\xi^{2}- $散布等。

机器学习中一个典型的概率分布利用，是分类问题中，很多模型最终会预估失去样本属于每个类别的概率，形成 1 个概率向量，表征类别概率分布。

很多状况下咱们感兴趣的是，某个事件在给定其它事件产生时呈现的概率，这种概率叫条件概率。

给定 $A $时 $B $产生的概率记为 $P(B \mid A) $，概率的计算公式为：$P(B \mid A)=\frac{P(A B)}{P(A)} $

先看看什么是“先验概率”和“后验概率”，以一个例子来阐明：

先验概率：某疾病在人群中发病率为 0.1%，那某人没有做测验之前，预计患病率为 $P(\text { 患病})=0.1 \% $，这个概率就叫做『先验概率』。
后验概率 ：该疾病的检测准确率为 95%，即该病患者检测显示阳性的概率为 95%（检测显示阴性的概率为 5%），即 $P(\text { 显示阳性 | 患病})=95\% $；或者说未患病的检测者，检测结果显示阴性的概率为 95%，检测显示阳性的概率为 5%。那么，检测显示为阳性时，此人的患病概率 $P(\text { 患病 | 显示阳性}) $ 就叫做『后验概率』。

贝叶斯公式：贝叶斯提供了一种利用『先验概率』计算『后验概率』的办法：

条件概率公式：$P(B \mid A)=\frac{P(A B)}{P(A)} $，$P(A \mid B)=\frac{P(A B)}{P(B)} $
由条件概率公式变换失去乘法公式：$P(A B)=P(B \mid A) P(A)=P(A \mid B) P(B) $
将条件概率公式和乘法公式联合：$P(B \mid A)=\frac{P(A \mid B) \cdot P(B)}{P(A)} $
引入全概率公式：$P(A)=\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right) $
将全概率代入 $P(B \mid A) $，能够失去贝叶斯公式：$P\left(B_{i} \mid A\right)=\frac{P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)}{\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)} $

上述例子的计算结果：

$$
\begin{aligned}
P(\text { 患病} \mid \text {显示阳性}) &=\frac{P(\text { 显示阳性 | 患病}) P(\text { 患病})}{P(\text { 显示阳性})} \\
&=\frac{P(\text { 显示阳性 | 患病}) P(\text { 患病})}{P(\text { 显示阳性 | 患病}) P(\text { 患病})+P(\text { 显示阳性 | 无病) } P(\text { 无病})} \\
&=\frac{95 \% * 0.1 \%}{95 \% * 0.1 \%+5 \% * 99.9 \%}=1.86 \%
\end{aligned}
$$

贝叶斯公式贯通了机器学习中随机问题剖析的全过程。从文本分类到概率图模型，其根本分类都是贝叶斯公式。

冀望、方差、协方差等次要反映数据的统计特色。机器学习的一个很大利用就是数据挖掘等，因而这些根本的统计概念也是很有必要把握。另外，像前面的 EM 算法中，就须要用到冀望的相干概念和性质。

在概率论和统计学中，数学冀望是试验中每次可能后果的概率乘以其后果的总和。冀望是最根本的数学特色之一，反映随机变量平均值的大小。

假如 $X $是一个离散型随机变量，其可能的取值有

$$
\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}
$$

各取值对应的概率取值为 $P\left(x_{k}\right) $，$k=1, 2, \ldots, n $。其数学冀望被定义为：

$$E(X)=\sum_{k=1}^{n} x_{k} P\left(x_{k}\right)$$

假如 $x $是一个连续型随机变量，其概率密度函数为 $f(x) $，其数学冀望被定义为：

$$E(x)=\int_{-\boldsymbol{\omega}}^{+\boldsymbol{w}} x f(x) d x$$

在概率论和统计学中，样本方差，是各个样本数据别离与其平均数之差的平方和的平均数。方差用来掂量随机变量与其数学冀望之间的偏离水平。

离散型 ：（$\mu $ 示意冀望）

$$D(X)=\sum_{k=1}^{n} \left(x_{k}-\mu\right)^{2}$$

一个疾速计算方差的公式（即平方的冀望减去冀望的平方）：

$$D(X)=E\left\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-[E(X)]^{2}$$

连续型 ：（$\mu $ 示意冀望）

$$
D(x)=\int(x-\mu)^{2} f(x) dx
$$

在概率论和统计学中，协方差被用于掂量两个随机变量 $X $和 $Y $之间的总体误差。期望值别离为 $E[X] $与 $E[Y] $的两个实随机变量 $X $与 $Y $之间的协方差为：

$$
Cov(X,Y) =E {[X-E(X)][Y-E(Y)] } =E(XY)-E(X)E(Y)
$$

以下是几个罕用等式：
$Cov(X, Y)=Cov(Y, X) $
$Cov(X, X)=D(X) $
$D(X+Y)=D(X)+D(Y)+2 Cov(X, Y) $
$Cov(X, Y)=E(X Y)-E(X) E(Y) $

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标，用以钻研变量之间线性相关水平。相关系数有多种定义形式，较为罕用的是皮尔逊相关系数。从协方差中会失去引申，就是关联系数，即：（$\sigma $是标准差）

$$
\rho = \frac{Cov(X,Y)}{\sigma _{x} \sigma _{y}}
$$

这个公式还有另外的一个表达形式：

$$
\rho = \frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}
$$

在概率论和统计学中，伯努利散布也叫 0 - 1 散布，是单个二值型离散随机变量的散布。

概率分布函数：$P(X=k)=p^{k}(1-p)^{1-k} $
冀望：$E(X)=p $
方差：$D(X)=p(1-p) $

在概率论和统计学中，几何散布是离散型概率分布，数学符号为 $X\sim G(p) $。其定义为：在 $n $次伯努利试验中，试验 $k $次才失去第一次胜利的机率（即前 $k-1 $次皆失败，第 $k $次胜利的概率）

概率分布函数：$P(X=k)=(1-p)^{k-1} p $
冀望：$E(X)=\frac{1}{p} $
方差：$D(X)=\frac{1-p}{p^{2}} $

在概率论和统计学中，二项分布即反复 $n $次伯努利试验，各次试验之间都互相独立，并且每次试验中只有两种可能的后果，而且这两种后果产生与否互相对抗，数学符号为 $X∼B(n,p) $。

如果每次试验时，事件产生的概率为 $p $，不产生的概率为 $1-p $，则 $n $次反复独立试验中产生 $k $次的概率为：$P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k} $

冀望：$E(X)=n p $
方差：$D(X)=n p(1-p) $

在概率论和统计学中，泊松散布是一种统计与概率学里常见到的离散概率分布，用于形容某段时间内事件具体的产生概率，数学符号为 $X∼\pi \left ( \lambda \right) $。

泊松散布的参数 $\lambda $示意单位工夫 (或单位面积) 内随机事件的均匀产生次数，其概率分布函数为：$P(X=k)=\frac{(\lambda)^{k} e^{-\lambda}}{k !} $

冀望：$E(X)=\lambda $
方差：$D(X) = \lambda $

例如，某医院均匀每小时出世 2.5 个婴儿（λ=2.5），那么接下来一个小时，会出世几个婴儿？

没有婴儿出世（$k=0 $）的概率为：$P(X=0)=\frac{(2.5)^{0} \cdot e^{-2.5}}{0 !} \approx 0.082 $
有 1 个婴儿出世（$k=1 $）的概率为：$P(X=1)=\frac{(2.5)^{1} \cdot e^{-2.5}}{1 !} \approx 0.205 $
有 2 个婴儿出世（$k=2 $）的概率为：$P(X=2)=\frac{(2.5)^{2} \cdot e^{-2.5}}{2 !} \approx 0.257 $

k	0	1	2	···
p	0.082	0.205	0.257	···

通常，柏松散布也叫期待概率，是一种比二项分布利用场景更为丰盛的概率模型，在数控、电商优化中也常常能见到它的影子。

在概率论和统计学中，正态分布又叫高斯分布（Gaussian Distribution），其曲线呈钟型，中间低，两头高，左右对称因其曲线呈钟形。数学符号为 $X∼N\left(\mu, \sigma^{2}\right) $。

若随机变量 $X $遵从一个数学冀望为 $\mu $、方差为 $\sigma^{2} $的正态分布，其概率分布函数：$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} $

冀望：$E(X)=\mu $
方差：$D(X)=\sigma^{2} $

在概率论和统计学中，均匀分布也叫矩形散布，它是对称概率分布，在雷同长度距离的散布概率是等可能的。

均匀分布由两个参数 $a $和 $b $定义，数学符号为 $X∼U (a, b) $（其中，$a $为数轴上较小值，$b $为数轴上较大值）。

其概率分布函数：$f(x)=\frac{1}{b-a} , a<x<b $

冀望：$E(X)=\frac{a+b}{2} $
方差：$D(X) = \frac{(b-a)^{2}}{12} $

在概率论和统计学中，指数分布与其余散布的最大不同之处在于，随机变量 $X $指的是不同独立事件产生的工夫距离值，工夫越长事件产生的概率指数型增大(减小)，数学符号为 $X∼E(\lambda) $。

指数分布的参数 $\lambda $示意单位工夫 (或单位面积) 内随机事件的均匀产生次数，其概率分布函数为：$f(x) = \lambda e^{-\lambda x}, x\ge 0 $

冀望：$E(X)=\frac{1}{\lambda} $
方差：$D(X)=\frac{1}{\lambda^{2}} $

在咱们日常的生产畛域，通常的目标是求出在某个工夫区间内，会产生随机事件的概率有多大。如：银行窗口服务、交通管理、火车票售票零碎、消费市场钻研报告中被宽泛使用。

例如：某医院均匀每小时出世 2.5 个婴儿（λ=2.5）。如果到下一个婴儿出世须要的间隔时间为 t (即工夫 t 内没有任何婴儿出世）。

距离 15 分钟（$X=\frac{1}{4} $）后才有婴儿出世的概率为：$f(\frac{1}{4}) = 2.5 e^{-2.5 \cdot \frac{1}{4}} \approx 0.9197 $
距离 30 分钟（$X=\frac{1}{2} $）后才有婴儿出世的概率为：$f(\frac{1}{2}) = 2.5 e^{-2.5 \cdot \frac{1}{2}} \approx 0.7163 $

一些总结：

在求解最优化问题中，拉格朗日乘子法（Lagrange Multiplier）和 KKT（Karush Kuhn Tucker）条件是两种最罕用的办法。

在机器学习的过程中，咱们常常遇到在有限度的状况下，最大化表达式的问题。如：
$maxf(x,y）s.t. \quad g(x,y)=0 $

此时咱们能够结构 $L(x,y,\lambda)=f(x,y) − \lambda \left (g(x,y) -c \right ) $，其中 $\lambda $称为拉格朗日乘子。接下来要对拉格朗日函数 $L(x,y,\lambda) $求导，令其为 0，解方程即可。

以下是图文解释：

红线标出的是束缚 $g(x,y)=c $的点的轨迹。蓝线是 $f(x,y) $的等高线。箭头示意斜率，和等高线的法线平行，从梯度的方向上来看显然有 $d_{1}>d_{2} $。

红色的线是束缚。如果没有这条束缚，$f(x,y) $的最小值应该会落在最小那圈等高线外部的某一点上。当初加上了束缚，正好落在这条红线上的点才可能是满足要求的点。也就是说，应该是在 $f(x,y) $的等高线正好和束缚线 $g(x,y) $相切的地位。

对束缚也求梯度 $\nabla g(x,y) $（如图中红色箭头所示），能够看出要想让指标函数 $f(x,y) $的等高线和束缚相切 $g(x,y) $，则他们切点的梯度肯定在一条直线上。也即在最优化解的时候 $\nabla f(x,y)=λ \nabla g(x,y)-C $，即 $\nabla [f(x,y)+λ(g(x,y)−c)]=0,λ≠0 $。

那么拉格朗日函数 $L(x,y,\lambda)=f(x,y) − \lambda \left (g(x,y) -c \right ) $在达到极值时与 $f(x,y) $相等，因为 $F(x,y) $达到极值时 $g(x,y)−c $总等于零。

简略的说，$L(x,y,λ) $获得最优化解的时候，也就是 $L(x,y,λ) $取极值的时候。此时 $L(x,y,λ) $的导数为 0，即 $\nabla L(x,y,\lambda)=\nabla \left [f(x,y) − \lambda \left (g(x,y) -c \right ) \right ] =0 $，能够得出 $f(x,y) $与 $g(x,y) $梯度共线，此时就是在条件束缚 $g(x,y) $下，$f(x,y) $的最优化解。

在反对向量机模型（SVM）的推导中，很要害的一步就是利用拉格朗日对偶性，将原问题转化为对偶问题。

最大略似预计（MLE）是一种粗略的数学冀望，指在模型已定、参数 $\theta $未知的状况下，通过观测数据预计未知参数 $\theta $的一种思维或办法。

最大似然预计的哲学外延就是：咱们对某个事件产生的概率未知，但咱们做了一些试验，有过一些对这个事件的经验(教训)，那么咱们认为，这个事件的概率应该是可能与咱们做的试验后果最吻合。当然，前提是咱们做的试验次数该当足够多。

举个例子，假如咱们要统计全国人口的身高。首先假如这个身高遵从遵从正态分布，然而该散布的均值。咱们没有人力与物力去统计全国每个人的身高，然而能够通过采样，获取局部人的身高，而后通过最大似然预计来获取上述假如中的正态分布的均值。

最大似然函数的求解思维 是：给定样本取值后，该样本最有可能来自参数 $\theta $为何值的总体。即：寻找 $\bar{\theta}_{M LE} $使得观测到样本数据的可能性最大。
最大似然函数估计值的个别求解步骤是：

写出似然函数
$$
L\left(\theta_{1}, \theta_{2}, \cdots, \theta_{n}\right)=\left\{\begin{array}{l}
\prod_{i=1}^{n} p\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right) \\
\prod_{i=1}^{n} f\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right)
\end{array}\right.
$$
对似然函数取对数
两边同时求导数
令导数为 0 解出似然方程

在机器学习中也会常常见到极大似然的影子。比方前面的逻辑斯特回归模型（LR），其外围就是结构对数损失函数后使用极大似然预计。

图解线性代数与矩阵论
图解概率与统计
图解微积分与最优化

图解 Python 编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解 AI 数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程

关于数学:图解AI数学基础-概率与统计

1. 概率论及在 AI 中的应用

2. 随机变量（Random Variable）

3. 随机向量（Random Vector）

4. 概率分布（Probability Distribution）

5. 条件概率（Conditional Probability）

6. 贝叶斯公式（Bayes’Theorem）

7. 冀望（Expectation）

8. 方差（Variance）

9. 协方差（Covariance）

10. 相关系数（Correlation coefficient）

11. 常见散布函数

1）伯努利散布（Bernoulli Distribution）（离散型）

2）几何散布（Geometric Distribution）（离散型）

3）二项分布（Binomial Distribution）（离散型）

4）泊松散布（Poisson Distribution）（离散型）

5）正态分布（Normal Distribution）（连续型）

6）均匀分布（Uniform Distribution）（连续型）

7）指数分布（Exponential Distribution）（连续型）

12. 拉格朗日乘子法（Lagrange Multiplier）

13. 最大似然预计（Maximum Likelihood Estimate）

ShowMeAI 相干文章举荐

ShowMeAI 系列教程举荐

Just My Socks（注册教程内含优惠码）

关于数学:图解AI数学基础-概率与统计

1. 概率论及在 AI 中的应用

2. 随机变量（Random Variable）

3. 随机向量（Random Vector）

4. 概率分布（Probability Distribution）

5. 条件概率（Conditional Probability）

6. 贝叶斯公式（Bayes’Theorem）

7. 冀望（Expectation）

8. 方差（Variance）

9. 协方差（Covariance）

10. 相关系数（Correlation coefficient）

11. 常见散布函数

1）伯努利散布（Bernoulli Distribution）（离散型）

2）几何散布（Geometric Distribution）（离散型）

3）二项分布（Binomial Distribution）（离散型）

4）泊松散布（Poisson Distribution）（离散型）

5）正态分布（Normal Distribution）（连续型）

6）均匀分布（Uniform Distribution）（连续型）

7）指数分布（Exponential Distribution）（连续型）

12. 拉格朗日乘子法（Lagrange Multiplier）

13. 最大似然预计（Maximum Likelihood Estimate）

ShowMeAI 相干文章举荐

ShowMeAI 系列教程举荐

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）