关于算法:算法工程狮三数学基础-概率论及统计学

37次阅读

共计 3738 个字符,预计需要花费 10 分钟才能阅读完成。

传统机器学习对于概率论的应用堪称是无所不用其及。

概率论

1. 全概率公式与贝叶斯公式

全概率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的外围利器。贝叶斯派认为事件产生的概率不像频率派那样单纯,而是应该退出人类的先验,使得试验后果不至于偏差太大。换句话说,贝叶斯派认为参数的取值也合乎肯定的概率分布,不是单纯的从观测揣测。

2. 随机变量概率分布与概率密度

指数分布

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是 $t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$

伯努利散布

$P(X=x)=\phi^x(1-\phi)^{1-x},X 非 0 即 1$

正态分布

当不足先验常识时,选用高斯准没错。由核心极限定理可知,独立同散布的变量相加合乎高斯分布。另外,在具备雷同方差的所有可能的概率分布中,高斯分布是对模型退出先验常识起码的散布
若 $X\sim N(\mu,\sigma^2),Y=aX+b, 则 Y\sim N(a\mu+b,a^2\sigma^2)$

二元随机变量 $f(x,y)$
  • 边际概率密度 $f_X(x)=\int f(x,y)dy$
  • 条件概率密度 $f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
  • 若两个随机变量 X 和 Y 互相独立,则概率分布函数

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而概率密度函数 $f(x,y)=f_X(x)\cdot f_Y(y)$, 等价地,简直处处成立

Laplace 散布和 Dirac 散布

拉普拉斯散布容许在 μ 处设置峰值,是离散变量散布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克散布对应于间断随机变量,在 X = μ 处有限高 $P(X)=\delta(X-x^{(i)})$,对于教训散布,应用狄雷克散布能够将频率变为概率,这样在训练集上似然是最大的。
其余,对于任意平滑的概率密度函数,都能够用高斯分布近似。

3. 冀望与方差

  • 若 X,Y 互相独立,则 $E(XY)=E(X)E(Y)$
  • $D(X)=E(X^2)-[E(X)]^2$
  • $D(nX)=n^2D(X)$
  • $D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))],若 X 和 Y 互相独立,则 D(X+Y)=D(X)+D(Y)$
  • 协方差就是 $Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$,依据上条,互相独立则协方差为 0
  • 相关系数 $\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$,相关系数在 [-1,1] 之间,越大越相干,靠近 0 为不相干

4. 大数定律

依概率收敛

频率依概率收敛于 P,背过也就了解了 $\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$

辛钦大数定律

n 个独立同散布的随机变量冀望为 μ;或者说当 n 足够大时,随机变量之和的冀望依概率收敛于 μ。如果想预计 X 的冀望,只须要从 X 散布中取足够多的点,平均值依概率收敛于 μ。

核心极限定理

独立同散布的随机变量之和近似于正态分布

5. 条件概率的链式法则

$$P(X^{(1)},X^{(2)},…,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},…,X^{(i-1)})$$

统计学

1. 统计量与抽样散布

统计量就是样本的不含未知参数的函数,晓得了样本,统计量也就确定了
抽样散布就是统计量的散布,常见的抽样散布有:

  • $\chi^2$ 散布:$\chi^2=\sum\limits_{i=1}^{n}X_i^2$,称为自由度为 n 的卡方散布 $E(\chi^2)=n,D(X^2)=2n$
  • t 散布:$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
  • F 散布:$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

2. 总体与样本分布

如果总体散布 $X\sim N(\mu,\sigma^2),X_1,X_2,…,X_n$ 是样本,那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由下面也能够看出,标准差 =$\dfrac{\sigma}{\sqrt{n}}$,以小于样本数量线性的速度降落,比方梯度降落中,梯度的预计的标准差以小于样本数量线性的速度降落,收益的增速随数量增大逐步降落,因而 GD 的批量太大可能代价和收益并不是反比

3. 点估计

对于参数的预计,咱们往往心愿找到参数的一个正当且优良的值就足够了,而不是找到参数的概率分布。这里的参数,能够是事件产生的概率,能够是函数的理论参数等等。
点估计有两种,矩预计和极大似然预计,矩预计就是样本矩代替总体矩预计,来推出参数。而极大似然预计在统计学习中真是太太太罕用了,它属于频率派的思维,简略的通过样本来求解参数,而不退出任何先验
极大似然预计 MLE 思维很简略:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,为了计算不便,应用 log 将连乘转换为加法 $\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,前面会专门写一篇介绍极大似然预计

4. 估计量的评估准则

后面不是说了参数估计嘛,参数估计进去总要有个评估规范看你评估的好不好,那参数的评估规范一共有四条:

  • 无偏性:$E(\hat{\theta})=\theta,则称估计量无偏,当 \lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta 称为渐近无偏估计量,比方:E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
  • 有效性:如果 $D(\hat{\theta_1})\leq D(\hat{\theta_2}), 则称 \hat{\theta_1}比 \hat{\theta_2}无效 $
  • 均方误差性:$mse=E(\hat{\theta}-\theta)^2, 如果 mse(\hat{\theta_1})\leq mse(\hat{\theta_2}), 则 \hat{\theta_1}在此方面优良,留神,有时均方误差性比无偏性更重要 $
  • 相合性:若 $\hat{\theta}$ 依概率收敛于 $\theta$,则称为相合估计量

比方,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+…+X_k)$ 作为预计参数,则 $D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,当 k 减少时,D 降落,所以由有效性,当样本越多时,参数估计越无效
再比方,由均方误差准则可知,当 n 很小时,$S^2 优于二阶矩 B^2$,当 n 上升时,二者无差别

信息论及其他

1. 信息论

  • 自信息:单个事件的不确定性,越大越不确定,越凌乱,然而信息也越多

$$I(x)=-logP(x)$$

  • 香农熵:散布的不确定性,上同

$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$

  • KL 散度:掂量两个散布间的差别,越小越类似

$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$

  • 穿插熵:等价于针对 Q 最小化 KL 散度,因为 P 是已知的,所以为了尽量使散布差别小,所以只优化 Q 即可

$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P 为实在散布,Q 为预测散布

2. 其余

$softplus:log(1+e^x)$:激活函数的一种,在前面会看到它是 Relu 的平滑版本,但成果个别

正文完
 0