传统机器学习对于概率论的应用堪称是无所不用其及。

概率论

1.全概率公式与贝叶斯公式

全概率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的外围利器。贝叶斯派认为事件产生的概率不像频率派那样单纯,而是应该退出人类的先验,使得试验后果不至于偏差太大。换句话说,贝叶斯派认为参数的取值也合乎肯定的概率分布,不是单纯的从观测揣测。

2.随机变量概率分布与概率密度

指数分布

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是$t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$

伯努利散布

$P(X=x)=\phi^x(1-\phi)^{1-x},X非0即1$

正态分布

当不足先验常识时,选用高斯准没错。由核心极限定理可知,独立同散布的变量相加合乎高斯分布。另外,在具备雷同方差的所有可能的概率分布中,高斯分布是对模型退出先验常识起码的散布
若$X\sim N(\mu,\sigma^2),Y=aX+b,则Y\sim N(a\mu+b,a^2\sigma^2)$

二元随机变量$f(x,y)$
  • 边际概率密度$f_X(x)=\int f(x,y)dy$
  • 条件概率密度$f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
  • 若两个随机变量X和Y互相独立,则概率分布函数

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而概率密度函数$f(x,y)=f_X(x)\cdot f_Y(y)$,等价地,简直处处成立

Laplace散布和Dirac散布

拉普拉斯散布容许在处设置峰值,是离散变量散布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克散布对应于间断随机变量,在X=处有限高$P(X)=\delta(X-x^{(i)})$,对于教训散布,应用狄雷克散布能够将频率变为概率,这样在训练集上似然是最大的。
其余,对于任意平滑的概率密度函数,都能够用高斯分布近似。

3.冀望与方差

  • 若X,Y互相独立,则$E(XY)=E(X)E(Y)$
  • $D(X)=E(X^2)-[E(X)]^2$
  • $D(nX)=n^2D(X)$
  • $D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))],若X和Y互相独立,则D(X+Y)=D(X)+D(Y)$
  • 协方差就是$Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$,依据上条,互相独立则协方差为0
  • 相关系数$\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$,相关系数在[-1,1]之间,越大越相干,靠近0为不相干

4.大数定律

依概率收敛

频率依概率收敛于P,背过也就了解了$\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$

辛钦大数定律

n个独立同散布的随机变量冀望为;或者说当n足够大时,随机变量之和的冀望依概率收敛于。如果想预计X的冀望,只须要从X散布中取足够多的点,平均值依概率收敛于。

核心极限定理

独立同散布的随机变量之和近似于正态分布

5.条件概率的链式法则

$$P(X^{(1)},X^{(2)},...,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},...,X^{(i-1)})$$

统计学

1.统计量与抽样散布

统计量就是样本的不含未知参数的函数,晓得了样本,统计量也就确定了
抽样散布就是统计量的散布,常见的抽样散布有:

  • $\chi^2$散布:$\chi^2=\sum\limits_{i=1}^{n}X_i^2$,称为自由度为n的卡方散布$E(\chi^2)=n,D(X^2)=2n$
  • t散布:$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
  • F散布:$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

2.总体与样本分布

如果总体散布$X\sim N(\mu,\sigma^2),X_1,X_2,...,X_n$是样本,那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由下面也能够看出,标准差=$\dfrac{\sigma}{\sqrt{n}}$,以小于样本数量线性的速度降落,比方梯度降落中,梯度的预计的标准差以小于样本数量线性的速度降落,收益的增速随数量增大逐步降落,因而GD的批量太大可能代价和收益并不是反比

3.点估计

对于参数的预计,咱们往往心愿找到参数的一个正当且优良的值就足够了,而不是找到参数的概率分布。这里的参数,能够是事件产生的概率,能够是函数的理论参数等等。
点估计有两种,矩预计和极大似然预计,矩预计就是样本矩代替总体矩预计,来推出参数。而极大似然预计在统计学习中真是太太太罕用了,它属于频率派的思维,简略的通过样本来求解参数,而不退出任何先验
极大似然预计MLE思维很简略:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,为了计算不便,应用log将连乘转换为加法$\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,前面会专门写一篇介绍极大似然预计

4.估计量的评估准则

后面不是说了参数估计嘛,参数估计进去总要有个评估规范看你评估的好不好,那参数的评估规范一共有四条:

  • 无偏性:$E(\hat{\theta})=\theta,则称估计量无偏,当\lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta称为渐近无偏估计量,比方:E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
  • 有效性:如果$D(\hat{\theta_1})\leq D(\hat{\theta_2}),则称\hat{\theta_1}比\hat{\theta_2}无效$
  • 均方误差性:$mse=E(\hat{\theta}-\theta)^2,如果mse(\hat{\theta_1})\leq mse(\hat{\theta_2}),则\hat{\theta_1}在此方面优良,留神,有时均方误差性比无偏性更重要$
  • 相合性:若$\hat{\theta}$依概率收敛于$\theta$,则称为相合估计量

比方,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+...+X_k)$作为预计参数,则$D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,当k减少时,D降落,所以由有效性,当样本越多时,参数估计越无效
再比方,由均方误差准则可知,当n很小时,$S^2优于二阶矩B^2$,当n上升时,二者无差别

信息论及其他

1.信息论

  • 自信息:单个事件的不确定性,越大越不确定,越凌乱,然而信息也越多

$$I(x)=-logP(x)$$

  • 香农熵:散布的不确定性,上同

$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$

  • KL散度:掂量两个散布间的差别,越小越类似

$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$

  • 穿插熵:等价于针对Q最小化KL散度,因为P是已知的,所以为了尽量使散布差别小,所以只优化Q即可

$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P为实在散布,Q为预测散布

2.其余

$softplus:log(1+e^x)$:激活函数的一种,在前面会看到它是Relu的平滑版本,但成果个别