关于数学:图解AI数学基础-概率与统计

98次阅读

共计 8427 个字符,预计需要花费 22 分钟才能阅读完成。

作者:韩信子 @ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/83
本文地址:http://www.showmeai.tech/article-detail/163
申明:版权所有,转载请分割平台与作者并注明出处


1. 概率论及在 AI 中的应用

概率 (Probability),反映随机事件呈现的可能性大小。事件 \(A \) 呈现的概率,用 \(P(A) \)示意。

概率论(Probability Theory),是钻研随机景象数量法则的数学分支,度量事物的不确定性。

机器学习大部分时候解决的都是不确定量或随机量。因而,绝对计算机科学的其余许多分支而言,机器学习会更多地应用概率论。很多典型的机器学习算法模型也是基于概率的,比方奢侈贝叶斯(Naive Bayesian)等。

在人工智能畛域,概率论有宽泛的利用

  • 能够借助于概率办法设计算法(概率型模型,如奢侈贝叶斯算法)。
  • 能够基于概率与统计进行预测剖析(如神经网络中的 softmax)。

2. 随机变量(Random Variable)

简略地说,随机变量是指随机事件的数量体现,是能够『随机』地取不同值的『变量』。通常,用大写字母来示意随机变量自身,而用带数字下标的小写字母来示意随机变量可能取到的值。

  • 例如,\(X \)为随机变量,\(x_{1} \)、\(x_{2} \)、\(x_{i} \)是随机变量 \(X \)可能的取值。

随机变量能够分为『离散型随机变量』和『连续型随机变量』:

  • 离散型随机变量(discrete random variable):即在肯定区间内变量取值为无限个(或可数个)。例如,某地区某年的出世人口数。
  • 连续型随机变量(continuous random variable):即在肯定区间内变量取值为有限个(或数值无奈一一列举进去)。例如,某地区男性衰弱成人的体重值。

3. 随机向量(Random Vector)

将几个随机变量按程序放在一起,组成向量的模式,就是随机向量。

在样本空间全副都一样的状况下,一个 \(n \)维的随机向量是

$$
x \overrightarrow{(\xi)}=\left(\begin{array}{c}
x_{1}(\xi) \\
x_{2}(\xi) \\
\cdots \\
x_{n}(\xi)
\end{array}\right)
$$

其中,\(\xi \)就是样本空间中的样本点。随机变量是1维随机向量的非凡状况。

4. 概率分布(Probability Distribution)

狭义上,概率分布用于表述随机变量取值的概率法则。或者说,给定某随机变量的取值范畴,概率分布示意该随机事件呈现的可能性。

广义地,概率分布指随机变量地概率分布函数,也称累积散布函数(Cumulative Distribution Function,CDF)。

离散型随机变量的概率分布

  • 应用散布列形容离散型随机变量的概率分布,即给出离散型随机变量的全副取值及每个值的概率。
  • 常见的离散型随机变量的散布有:单点散布、0- 1 散布、几何散布、二项分布、泊松散布等。

连续型随机变量的概率分布

如果随机变量 \(X \)的散布函数为 \(F(x) \),存在非负函数 \(f (x) \)使对于任意实数 \(x \)有 \(F(x)=\int_{-\infty}^{x} f(t) d t \),则称 \(X \)为连续型随机变量,其中函数 \(f(x) \)称为 \(X \)的概率密度函数。

常见的连续型随机变量的散布有:正态分布、均匀分布、指数分布、\(t- \)散布、\(F- \)散布、\(\xi^{2}- \)散布等。

机器学习中一个典型的概率分布利用,是分类问题中,很多模型最终会预估失去样本属于每个类别的概率,形成 1 个概率向量,表征类别概率分布。

5. 条件概率(Conditional Probability)

很多状况下咱们感兴趣的是,某个事件在给定其它事件产生时呈现的概率,这种概率叫条件概率。

给定 \(A \)时 \(B \)产生的概率记为 \(P(B \mid A) \),概率的计算公式为:\(P(B \mid A)=\frac{P(A B)}{P(A)} \)

6. 贝叶斯公式(Bayes’Theorem)

先看看什么是“先验概率”和“后验概率”,以一个例子来阐明:

先验概率:某疾病在人群中发病率为 0.1%,那某人没有做测验之前,预计患病率为 \(P(\text { 患病})=0.1 \% \),这个概率就叫做『先验概率』。

后验概率 :该疾病的检测准确率为 95%,即该病患者检测显示阳性的概率为 95%(检测显示阴性的概率为 5%),即 \(P(\text { 显示阳性 | 患病})=95\% \);或者说未患病的检测者,检测结果显示阴性的概率为 95%,检测显示阳性的概率为 5%。那么,检测显示为阳性时,此人的患病概率 \(P(\text { 患病 | 显示阳性}) \) 就叫做『后验概率』。

贝叶斯公式:贝叶斯提供了一种利用『先验概率』计算『后验概率』的办法

  • 条件概率公式:\(P(B \mid A)=\frac{P(A B)}{P(A)} \),\(P(A \mid B)=\frac{P(A B)}{P(B)} \)
  • 由条件概率公式变换失去乘法公式:\(P(A B)=P(B \mid A) P(A)=P(A \mid B) P(B) \)
  • 将条件概率公式和乘法公式联合:\(P(B \mid A)=\frac{P(A \mid B) \cdot P(B)}{P(A)} \)
  • 引入全概率公式:\(P(A)=\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right) \)
  • 将全概率代入 \(P(B \mid A) \),能够失去贝叶斯公式:\(P\left(B_{i} \mid A\right)=\frac{P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)}{\sum_{i=1}^{N} P\left(A \mid B_{i}\right) \cdot P\left(B_{i}\right)} \)

上述例子的计算结果:

$$
\begin{aligned}
P(\text { 患病} \mid \text {显示阳性}) &=\frac{P(\text { 显示阳性 | 患病}) P(\text { 患病})}{P(\text { 显示阳性})} \\
&=\frac{P(\text { 显示阳性 | 患病}) P(\text { 患病})}{P(\text { 显示阳性 | 患病}) P(\text { 患病})+P(\text { 显示阳性 | 无病) } P(\text { 无病})} \\
&=\frac{95 \% * 0.1 \%}{95 \% * 0.1 \%+5 \% * 99.9 \%}=1.86 \%
\end{aligned}
$$

贝叶斯公式贯通了机器学习中随机问题剖析的全过程。从文本分类到概率图模型,其根本分类都是贝叶斯公式。

冀望、方差、协方差等次要反映数据的统计特色。机器学习的一个很大利用就是数据挖掘等,因而这些根本的统计概念也是很有必要把握。另外,像前面的 EM 算法中,就须要用到冀望的相干概念和性质。

7. 冀望(Expectation)

在概率论和统计学中,数学冀望是试验中每次可能后果的概率乘以其后果的总和。冀望是最根本的数学特色之一,反映随机变量平均值的大小。

假如 \(X \)是一个离散型随机变量,其可能的取值有

$$
\left\{x_{1}, x_{2}, \ldots, x_{n}\right\}
$$

各取值对应的概率取值为 \(P\left(x_{k}\right) \),\(k=1, 2, \ldots, n \)。其数学冀望被定义为:

$$E(X)=\sum_{k=1}^{n} x_{k} P\left(x_{k}\right)$$

假如 \(x \)是一个连续型随机变量,其概率密度函数为 \(f(x) \),其数学冀望被定义为:

$$E(x)=\int_{-\boldsymbol{\omega}}^{+\boldsymbol{w}} x f(x) d x$$

8. 方差(Variance)

在概率论和统计学中,样本方差,是各个样本数据别离与其平均数之差的平方和的平均数。方差用来掂量随机变量与其数学冀望之间的偏离水平。

离散型 :(\(\mu \) 示意冀望)

$$D(X)=\sum_{k=1}^{n} \left(x_{k}-\mu\right)^{2}$$

一个疾速计算方差的公式(即平方的冀望减去冀望的平方):

$$D(X)=E\left\{[X-E(X)]^{2}\right\}=E\left(X^{2}\right)-[E(X)]^{2}$$

连续型 :(\(\mu \) 示意冀望)

$$
D(x)=\int(x-\mu)^{2} f(x) dx
$$

9. 协方差(Covariance)

在概率论和统计学中,协方差被用于掂量两个随机变量 \(X \)和 \(Y \)之间的总体误差。期望值别离为 \(E[X] \)与 \(E[Y] \)的两个实随机变量 \(X \)与 \(Y \)之间的协方差为:

$$
Cov(X,Y) =E {[X-E(X)][Y-E(Y)] } =E(XY)-E(X)E(Y)
$$

以下是几个罕用等式:
\(Cov(X, Y)=Cov(Y, X) \)
\(Cov(X, X)=D(X) \)
\(D(X+Y)=D(X)+D(Y)+2 Cov(X, Y) \)
\(Cov(X, Y)=E(X Y)-E(X) E(Y) \)

10. 相关系数(Correlation coefficient)

相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,用以钻研变量之间线性相关水平。相关系数有多种定义形式,较为罕用的是皮尔逊相关系数。从协方差中会失去引申,就是关联系数,即:(\(\sigma \)是标准差)

$$
\rho = \frac{Cov(X,Y)}{\sigma _{x} \sigma _{y}}
$$

这个公式还有另外的一个表达形式:

$$
\rho = \frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}
$$

11. 常见散布函数

1)伯努利散布(Bernoulli Distribution)(离散型)

在概率论和统计学中,伯努利散布也叫 0 - 1 散布,是单个二值型离散随机变量的散布。

  • 概率分布函数:\(P(X=k)=p^{k}(1-p)^{1-k} \)
  • 冀望:\(E(X)=p \)
  • 方差:\(D(X)=p(1-p) \)

2)几何散布(Geometric Distribution)(离散型)

在概率论和统计学中,几何散布是离散型概率分布,数学符号为 \(X\sim G(p) \)。其定义为:在 \(n \)次伯努利试验中,试验 \(k \)次才失去第一次胜利的机率(即前 \(k-1 \)次皆失败,第 \(k \)次胜利的概率)

  • 概率分布函数:\(P(X=k)=(1-p)^{k-1} p \)
  • 冀望:\(E(X)=\frac{1}{p} \)
  • 方差:\(D(X)=\frac{1-p}{p^{2}} \)

3)二项分布(Binomial Distribution)(离散型)

在概率论和统计学中,二项分布即反复 \(n \)次伯努利试验,各次试验之间都互相独立,并且每次试验中只有两种可能的后果,而且这两种后果产生与否互相对抗,数学符号为 \(X∼B(n,p) \)。


如果每次试验时,事件产生的概率为 \(p \),不产生的概率为 \(1-p \),则 \(n \)次反复独立试验中产生 \(k \)次的概率为:\(P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k} \)

  • 冀望:\(E(X)=n p \)
  • 方差:\(D(X)=n p(1-p) \)

4)泊松散布(Poisson Distribution)(离散型)

在概率论和统计学中,泊松散布是一种统计与概率学里常见到的离散概率分布,用于形容某段时间内事件具体的产生概率,数学符号为 \(X∼\pi \left ( \lambda \right) \)。


泊松散布的参数 \(\lambda \)示意单位工夫 (或单位面积) 内随机事件的均匀产生次数,其概率分布函数为:\(P(X=k)=\frac{(\lambda)^{k} e^{-\lambda}}{k !} \)

  • 冀望:\(E(X)=\lambda \)
  • 方差:\(D(X) = \lambda \)

例如,某医院均匀每小时出世 2.5 个婴儿(λ=2.5),那么接下来一个小时,会出世几个婴儿?

  • 没有婴儿出世(\(k=0 \))的概率为:\(P(X=0)=\frac{(2.5)^{0} \cdot e^{-2.5}}{0 !} \approx 0.082 \)
  • 有 1 个婴儿出世(\(k=1 \))的概率为:\(P(X=1)=\frac{(2.5)^{1} \cdot e^{-2.5}}{1 !} \approx 0.205 \)
  • 有 2 个婴儿出世(\(k=2 \))的概率为:\(P(X=2)=\frac{(2.5)^{2} \cdot e^{-2.5}}{2 !} \approx 0.257 \)
k012···
p0.0820.2050.257···

通常,柏松散布也叫期待概率,是一种比二项分布利用场景更为丰盛的概率模型,在数控、电商优化中也常常能见到它的影子。

5)正态分布(Normal Distribution)(连续型)

在概率论和统计学中,正态分布又叫高斯分布(Gaussian Distribution),其曲线呈钟型,中间低,两头高,左右对称因其曲线呈钟形。数学符号为 \(X∼N\left(\mu, \sigma^{2}\right) \)。


若随机变量 \(X \)遵从一个数学冀望为 \(\mu \)、方差为 \(\sigma^{2} \)的正态分布,其概率分布函数:\(f(x)=\frac{1}{\sqrt{2 \pi} \sigma} e ^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \)

  • 冀望:\(E(X)=\mu \)
  • 方差:\(D(X)=\sigma^{2} \)

6)均匀分布(Uniform Distribution)(连续型)

在概率论和统计学中,均匀分布也叫矩形散布,它是对称概率分布,在雷同长度距离的散布概率是等可能的。

均匀分布由两个参数 \(a \)和 \(b \)定义,数学符号为 \(X∼U (a, b) \)(其中,\(a \)为数轴上较小值,\(b \)为数轴上较大值)。


其概率分布函数:\(f(x)=\frac{1}{b-a} , a<x<b \)

  • 冀望:\(E(X)=\frac{a+b}{2} \)
  • 方差:\(D(X) = \frac{(b-a)^{2}}{12} \)

7)指数分布(Exponential Distribution)(连续型)

在概率论和统计学中,指数分布与其余散布的最大不同之处在于,随机变量 \(X \)指的是不同独立事件产生的工夫距离值,工夫越长事件产生的概率指数型增大(减小),数学符号为 \(X∼E(\lambda) \)。


指数分布的参数 \(\lambda \)示意单位工夫 (或单位面积) 内随机事件的均匀产生次数,其概率分布函数为:\(f(x) = \lambda e^{-\lambda x}, x\ge 0 \)

  • 冀望:\(E(X)=\frac{1}{\lambda} \)
  • 方差:\(D(X)=\frac{1}{\lambda^{2}} \)

在咱们日常的生产畛域,通常的目标是求出在某个工夫区间内,会产生随机事件的概率有多大。如:银行窗口服务、交通管理、火车票售票零碎、消费市场钻研报告中被宽泛使用。

例如:某医院均匀每小时出世 2.5 个婴儿(λ=2.5)。如果到下一个婴儿出世须要的间隔时间为 t (即工夫 t 内没有任何婴儿出世)。

  • 距离 15 分钟(\(X=\frac{1}{4} \))后才有婴儿出世的概率为:\(f(\frac{1}{4}) = 2.5 e^{-2.5 \cdot \frac{1}{4}} \approx 0.9197 \)
  • 距离 30 分钟(\(X=\frac{1}{2} \))后才有婴儿出世的概率为:\(f(\frac{1}{2}) = 2.5 e^{-2.5 \cdot \frac{1}{2}} \approx 0.7163 \)

一些总结:

12. 拉格朗日乘子法(Lagrange Multiplier)

在求解最优化问题中,拉格朗日乘子法(Lagrange Multiplier)和 KKT(Karush Kuhn Tucker)条件是两种最罕用的办法。

在机器学习的过程中,咱们常常遇到在有限度的状况下,最大化表达式的问题。如:
\(maxf(x,y)s.t. \quad g(x,y)=0 \)

此时咱们能够结构 \(L(x,y,\lambda)=f(x,y) − \lambda \left (g(x,y) -c \right ) \),其中 \(\lambda \)称为拉格朗日乘子。接下来要对拉格朗日函数 \(L(x,y,\lambda) \)求导,令其为 0,解方程即可。

以下是图文解释:

红线标出的是束缚 \(g(x,y)=c \)的点的轨迹。蓝线是 \(f(x,y) \)的等高线。箭头示意斜率,和等高线的法线平行,从梯度的方向上来看显然有 \(d_{1}>d_{2} \)。

红色的线是束缚。如果没有这条束缚,\(f(x,y) \)的最小值应该会落在最小那圈等高线外部的某一点上。当初加上了束缚,正好落在这条红线上的点才可能是满足要求的点。也就是说,应该是在 \(f(x,y) \)的等高线正好和束缚线 \(g(x,y) \)相切的地位。

对束缚也求梯度 \(\nabla g(x,y) \)(如图中红色箭头所示),能够看出要想让指标函数 \(f(x,y) \)的等高线和束缚相切 \(g(x,y) \),则他们切点的梯度肯定在一条直线上。也即在最优化解的时候 \(\nabla f(x,y)=λ \nabla g(x,y)-C \),即 \(\nabla [f(x,y)+λ(g(x,y)−c)]=0,λ≠0 \)。

那么拉格朗日函数 \(L(x,y,\lambda)=f(x,y) − \lambda \left (g(x,y) -c \right ) \)在达到极值时与 \(f(x,y) \)相等,因为 \(F(x,y) \)达到极值时 \(g(x,y)−c \)总等于零。

简略的说,\(L(x,y,λ) \)获得最优化解的时候,也就是 \(L(x,y,λ) \)取极值的时候。此时 \(L(x,y,λ) \)的导数为 0,即 \(\nabla L(x,y,\lambda)=\nabla \left [f(x,y) − \lambda \left (g(x,y) -c \right ) \right ] =0 \),能够得出 \(f(x,y) \)与 \(g(x,y) \)梯度共线,此时就是在条件束缚 \(g(x,y) \)下,\(f(x,y) \)的最优化解。

在反对向量机模型(SVM)的推导中,很要害的一步就是利用拉格朗日对偶性,将原问题转化为对偶问题。

13. 最大似然预计(Maximum Likelihood Estimate)

最大略似预计(MLE)是一种粗略的数学冀望,指在模型已定、参数 \(\theta \)未知的状况下,通过观测数据预计未知参数 \(\theta \)的一种思维或办法。

最大似然预计的哲学外延就是:咱们对某个事件产生的概率未知,但咱们做了一些试验,有过一些对这个事件的经验(教训),那么咱们认为,这个事件的概率应该是可能与咱们做的试验后果最吻合。当然,前提是咱们做的试验次数该当足够多。

举个例子,假如咱们要统计全国人口的身高。首先假如这个身高遵从遵从正态分布,然而该散布的均值。咱们没有人力与物力去统计全国每个人的身高,然而能够通过采样,获取局部人的身高,而后通过最大似然预计来获取上述假如中的正态分布的均值。

最大似然函数的求解思维 是:给定样本取值后,该样本最有可能来自参数 \(\theta \)为何值的总体。即:寻找 \(\bar{\theta}_{M LE} \)使得观测到样本数据的可能性最大。
最大似然函数估计值的个别求解步骤是

  • 写出似然函数

    $$
    L\left(\theta_{1}, \theta_{2}, \cdots, \theta_{n}\right)=\left\{\begin{array}{l}
    \prod_{i=1}^{n} p\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right) \\
    \prod_{i=1}^{n} f\left(x_{i} ; \theta_{1}, \theta_{2}, \cdots, \theta_{n}\right)
    \end{array}\right.
    $$

  • 对似然函数取对数
  • 两边同时求导数
  • 令导数为 0 解出似然方程

在机器学习中也会常常见到极大似然的影子。比方前面的逻辑斯特回归模型(LR),其外围就是结构对数损失函数后使用极大似然预计。

ShowMeAI 相干文章举荐

  • 图解线性代数与矩阵论
  • 图解概率与统计
  • 图解微积分与最优化

ShowMeAI 系列教程举荐

  • 图解 Python 编程:从入门到精通系列教程
  • 图解数据分析:从入门到精通系列教程
  • 图解 AI 数学根底:从入门到精通系列教程
  • 图解大数据技术:从入门到精通系列教程

正文完
 0