共计 3738 个字符,预计需要花费 10 分钟才能阅读完成。
传统机器学习对于概率论的应用堪称是无所不用其及。
概率论
1. 全概率公式与贝叶斯公式
全概率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的外围利器。贝叶斯派认为事件产生的概率不像频率派那样单纯,而是应该退出人类的先验,使得试验后果不至于偏差太大。换句话说,贝叶斯派认为参数的取值也合乎肯定的概率分布,不是单纯的从观测揣测。
2. 随机变量概率分布与概率密度
指数分布
$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是 $t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$
伯努利散布
$P(X=x)=\phi^x(1-\phi)^{1-x},X 非 0 即 1$
正态分布
当不足先验常识时,选用高斯准没错。由核心极限定理可知,独立同散布的变量相加合乎高斯分布。另外,在具备雷同方差的所有可能的概率分布中,高斯分布是对模型退出先验常识起码的散布 。
若 $X\sim N(\mu,\sigma^2),Y=aX+b, 则 Y\sim N(a\mu+b,a^2\sigma^2)$
二元随机变量 $f(x,y)$
- 边际概率密度 $f_X(x)=\int f(x,y)dy$
- 条件概率密度 $f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
- 若两个随机变量 X 和 Y 互相独立,则概率分布函数
$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而概率密度函数 $f(x,y)=f_X(x)\cdot f_Y(y)$, 等价地,简直处处成立
Laplace 散布和 Dirac 散布
拉普拉斯散布容许在 μ 处设置峰值,是离散变量散布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克散布对应于间断随机变量,在 X = μ 处有限高 $P(X)=\delta(X-x^{(i)})$,对于教训散布,应用狄雷克散布能够将频率变为概率,这样在训练集上似然是最大的。
其余,对于任意平滑的概率密度函数,都能够用高斯分布近似。
3. 冀望与方差
- 若 X,Y 互相独立,则 $E(XY)=E(X)E(Y)$
- $D(X)=E(X^2)-[E(X)]^2$
- $D(nX)=n^2D(X)$
- $D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))],若 X 和 Y 互相独立,则 D(X+Y)=D(X)+D(Y)$
- 协方差就是 $Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$,依据上条,互相独立则协方差为 0
- 相关系数 $\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$,相关系数在 [-1,1] 之间,越大越相干,靠近 0 为不相干
4. 大数定律
依概率收敛
频率依概率收敛于 P,背过也就了解了 $\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$
辛钦大数定律
n 个独立同散布的随机变量冀望为 μ;或者说当 n 足够大时,随机变量之和的冀望依概率收敛于 μ。如果想预计 X 的冀望,只须要从 X 散布中取足够多的点,平均值依概率收敛于 μ。
核心极限定理
独立同散布的随机变量之和近似于正态分布
5. 条件概率的链式法则
$$P(X^{(1)},X^{(2)},…,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},…,X^{(i-1)})$$
统计学
1. 统计量与抽样散布
统计量就是样本的不含未知参数的函数,晓得了样本,统计量也就确定了
抽样散布就是统计量的散布,常见的抽样散布有:
- $\chi^2$ 散布:$\chi^2=\sum\limits_{i=1}^{n}X_i^2$,称为自由度为 n 的卡方散布 $E(\chi^2)=n,D(X^2)=2n$
- t 散布:$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
- F 散布:$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$
2. 总体与样本分布
如果总体散布 $X\sim N(\mu,\sigma^2),X_1,X_2,…,X_n$ 是样本,那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$
$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$
$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由下面也能够看出,标准差 =$\dfrac{\sigma}{\sqrt{n}}$,以小于样本数量线性的速度降落,比方梯度降落中,梯度的预计的标准差以小于样本数量线性的速度降落,收益的增速随数量增大逐步降落,因而 GD 的批量太大可能代价和收益并不是反比
3. 点估计
对于参数的预计,咱们往往心愿找到参数的一个正当且优良的值就足够了,而不是找到参数的概率分布。这里的参数,能够是事件产生的概率,能够是函数的理论参数等等。
点估计有两种,矩预计和极大似然预计,矩预计就是样本矩代替总体矩预计,来推出参数。而极大似然预计在统计学习中真是太太太罕用了,它属于频率派的思维,简略的通过样本来求解参数,而不退出任何先验 。
极大似然预计 MLE 思维很简略:$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$,为了计算不便,应用 log 将连乘转换为加法 $\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$,前面会专门写一篇介绍极大似然预计
4. 估计量的评估准则
后面不是说了参数估计嘛,参数估计进去总要有个评估规范看你评估的好不好,那参数的评估规范一共有四条:
- 无偏性:$E(\hat{\theta})=\theta,则称估计量无偏,当 \lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta 称为渐近无偏估计量,比方:E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
- 有效性:如果 $D(\hat{\theta_1})\leq D(\hat{\theta_2}), 则称 \hat{\theta_1}比 \hat{\theta_2}无效 $
- 均方误差性:$mse=E(\hat{\theta}-\theta)^2, 如果 mse(\hat{\theta_1})\leq mse(\hat{\theta_2}), 则 \hat{\theta_1}在此方面优良,留神,有时均方误差性比无偏性更重要 $
- 相合性:若 $\hat{\theta}$ 依概率收敛于 $\theta$,则称为相合估计量
比方,由有效性:$\hat{\theta}_k=\dfrac{1}{k}(X_1+…+X_k)$ 作为预计参数,则 $D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$,当 k 减少时,D 降落,所以由有效性,当样本越多时,参数估计越无效
再比方,由均方误差准则可知,当 n 很小时,$S^2 优于二阶矩 B^2$,当 n 上升时,二者无差别
信息论及其他
1. 信息论
- 自信息:单个事件的不确定性,越大越不确定,越凌乱,然而信息也越多
$$I(x)=-logP(x)$$
- 香农熵:散布的不确定性,上同
$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$
- KL 散度:掂量两个散布间的差别,越小越类似
$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$
- 穿插熵:等价于针对 Q 最小化 KL 散度,因为 P 是已知的,所以为了尽量使散布差别小,所以只优化 Q 即可
$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中,P 为实在散布,Q 为预测散布
2. 其余
$softplus:log(1+e^x)$:激活函数的一种,在前面会看到它是 Relu 的平滑版本,但成果个别