关于算法:算法工程狮三数学基础-概率论及统计学

43次阅读

共计 3738 个字符，预计需要花费 10 分钟才能阅读完成。

传统机器学习对于概率论的应用堪称是无所不用其及。

全概率公式
$$P(A)=\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)$$
贝叶斯公式
$$P(B_i|A)=\dfrac{P(A,B_i)}{P(A)}=\dfrac{P(B_i)P(A|B_i)}{\sum\limits_{j=1}^{n}P(B_j)P(A|B_j)}$$
贝叶斯公式是贝叶斯统计学的外围利器。贝叶斯派认为事件产生的概率不像频率派那样单纯，而是应该退出人类的先验，使得试验后果不至于偏差太大。换句话说，贝叶斯派认为参数的取值也合乎肯定的概率分布，不是单纯的从观测揣测。

指数分布

$$f(x)=\begin{cases}\lambda e^{-\lambda x},x>0 \\\ 0,x<=0 \end{cases}$$
指数分布无记忆性指的是 $t_0>0,t>0,P(x>t_0+t|x>t_0)=P(x>t)$

伯努利散布

$P(X=x)=\phi^x(1-\phi)^{1-x}，X 非 0 即 1$

正态分布

当不足先验常识时，选用高斯准没错。由核心极限定理可知，独立同散布的变量相加合乎高斯分布。另外，在具备雷同方差的所有可能的概率分布中，高斯分布是对模型退出先验常识起码的散布 。
若 $X\sim N(\mu,\sigma^2),Y=aX+b, 则 Y\sim N(a\mu+b,a^2\sigma^2)$

二元随机变量 $f(x,y)$

边际概率密度 $f_X(x)=\int f(x,y)dy$
条件概率密度 $f(y|x)=\dfrac{f(x,y)}{f_X(x)}$
若两个随机变量 X 和 Y 互相独立，则概率分布函数

$$F(x,y)=F_X(x)\cdot F_Y(y)\Leftrightarrow P(X\leq x,Y\leq y)=P(X\leq x)\cdot P(Y\leq y)$$
而概率密度函数 $f(x,y)=f_X(x)\cdot f_Y(y)$, 等价地，简直处处成立

Laplace 散布和 Dirac 散布

拉普拉斯散布容许在 μ 处设置峰值，是离散变量散布。$Laplace(X;\mu,\gamma)=\dfrac{1}{2\gamma}e^{-\dfrac{|x-\mu|}{\gamma}}$
狄雷克散布对应于间断随机变量，在 X = μ 处有限高 $P(X)=\delta(X-x^{(i)})$，对于教训散布，应用狄雷克散布能够将频率变为概率，这样在训练集上似然是最大的。
其余，对于任意平滑的概率密度函数，都能够用高斯分布近似。

若 X,Y 互相独立，则 $E(XY)=E(X)E(Y)$
$D(X)=E(X^2)-[E(X)]^2$
$D(nX)=n^2D(X)$
$D(X+Y)=D(X)+D(Y)+2E[(X-E(X))(Y-E(Y))]，若 X 和 Y 互相独立，则 D(X+Y)=D(X)+D(Y)$
协方差就是 $Cov(X,Y)=E[(X-E(X))(Y-E(Y))]=E(XY)-E(X)(Y)$，依据上条，互相独立则协方差为 0
相关系数 $\rho_{XY}=\dfrac{Cov(X,Y)}{\sqrt{D(X)\cdot D(Y)}}$，相关系数在 [-1,1] 之间，越大越相干，靠近 0 为不相干

依概率收敛

频率依概率收敛于 P，背过也就了解了 $\lim\limits_{n\rightarrow \infin}P(|\frac{n_A}{n}-P|\ge\epsilon)=0$

辛钦大数定律

n 个独立同散布的随机变量冀望为 μ；或者说当 n 足够大时，随机变量之和的冀望依概率收敛于 μ。如果想预计 X 的冀望，只须要从 X 散布中取足够多的点，平均值依概率收敛于 μ。

核心极限定理

独立同散布的随机变量之和近似于正态分布

$$P(X^{(1)},X^{(2)},…,X^{(n)})=P(X^{(1)})\prod_{i=2}^{n}P(X^{(i)}|X^{(1)},…,X^{(i-1)})$$

统计量就是样本的不含未知参数的函数，晓得了样本，统计量也就确定了
抽样散布就是统计量的散布，常见的抽样散布有：

$\chi^2$ 散布：$\chi^2=\sum\limits_{i=1}^{n}X_i^2$，称为自由度为 n 的卡方散布 $E(\chi^2)=n,D(X^2)=2n$
t 散布：$T=\dfrac{X}{\sqrt{Y/N}},X\sim N(0,1),Y\sim \chi^2(N)$
F 散布：$F=\dfrac{X/n_1}{Y/n_2},X,Y\sim \chi^2$

如果总体散布 $X\sim N(\mu,\sigma^2),X_1,X_2,…,X_n$ 是样本，那么
$$\bar{X}=\frac{1}{n}\sum \limits_{i=1}^{n}X_i$$

$$S^2=\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2$$
其中
$$E(\bar{X})=E(\frac{1}{n}\sum X_i)=\frac{1}{n}\sum (X_i)=\mu$$

$$D(\bar{X})=D(\frac{1}{n}\sum X_i)=\frac{1}{n^2}\sum D(X_i)=\dfrac{\sigma^2}{n}$$
由下面也能够看出，标准差 =$\dfrac{\sigma}{\sqrt{n}}$，以小于样本数量线性的速度降落，比方梯度降落中，梯度的预计的标准差以小于样本数量线性的速度降落，收益的增速随数量增大逐步降落，因而 GD 的批量太大可能代价和收益并不是反比

对于参数的预计，咱们往往心愿找到参数的一个正当且优良的值就足够了，而不是找到参数的概率分布。这里的参数，能够是事件产生的概率，能够是函数的理论参数等等。
点估计有两种，矩预计和极大似然预计，矩预计就是样本矩代替总体矩预计，来推出参数。而极大似然预计在统计学习中真是太太太罕用了，它属于频率派的思维，简略的通过样本来求解参数，而不退出任何先验 。
极大似然预计 MLE 思维很简略：$\theta_{MLE}=\argmax\limits_\theta\prod_{i=1}^nP(X_i;\theta)$，为了计算不便，应用 log 将连乘转换为加法 $\theta_{MLE}=\argmax\limits_\theta\sum_{i=1}^n\log P(X_i;\theta)$，前面会专门写一篇介绍极大似然预计

后面不是说了参数估计嘛，参数估计进去总要有个评估规范看你评估的好不好，那参数的评估规范一共有四条：

无偏性：$E(\hat{\theta})=\theta，则称估计量无偏，当 \lim\limits_{n\rightarrow \infin}E(\hat{\theta})=\theta 称为渐近无偏估计量，比方：E(\frac{1}{n-1}\sum\limits_{i=1}^{n}(X_i-\bar{X})^2)=\sigma^2$
有效性：如果 $D(\hat{\theta_1})\leq D(\hat{\theta_2}), 则称 \hat{\theta_1}比 \hat{\theta_2}无效 $
均方误差性：$mse=E(\hat{\theta}-\theta)^2, 如果 mse(\hat{\theta_1})\leq mse(\hat{\theta_2}), 则 \hat{\theta_1}在此方面优良，留神，有时均方误差性比无偏性更重要 $
相合性：若 $\hat{\theta}$ 依概率收敛于 $\theta$，则称为相合估计量

比方，由有效性：$\hat{\theta}_k=\dfrac{1}{k}(X_1+…+X_k)$ 作为预计参数，则 $D(\hat{\theta}_k)=\dfrac{1}{k}\sum D(X_i)=\dfrac{\sigma^2}{k}$，当 k 减少时，D 降落，所以由有效性，当样本越多时，参数估计越无效
再比方，由均方误差准则可知，当 n 很小时，$S^2 优于二阶矩 B^2$，当 n 上升时，二者无差别

自信息：单个事件的不确定性，越大越不确定，越凌乱，然而信息也越多

$$I(x)=-logP(x)$$

香农熵：散布的不确定性，上同

$$H(X)=E_{X\sim p}(I(X))=-E_{X\sim p}logP(x)$$

KL 散度：掂量两个散布间的差别，越小越类似

$$D_{KL}(P||Q)=E_{X\sim p}[log\dfrac{P(X)}{Q(X)}]=E_p(logP-logQ)$$

穿插熵：等价于针对 Q 最小化 KL 散度，因为 P 是已知的，所以为了尽量使散布差别小，所以只优化 Q 即可

$$H(P,Q)=-E_{X\sim p}logQ(X)=-\sum\limits_{x\in X}P(x)logQ(x)$$
其中，P 为实在散布，Q 为预测散布

$softplus:log(1+e^x)$：激活函数的一种，在前面会看到它是 Relu 的平滑版本，但成果个别

正文完

算法

发表至：算法

2020-10-07

0

关于算法:递推算法题令人费解的开关『拉灯』

关于算法:leetcode255-验证前序遍历序列二叉搜索树

关于算法:算法-链表-虚拟头结点

关于算法:CS-1027-用java实现2D数据算法

关于springboot:第七天代码

关于算法:算法工程狮三数学基础-概率论及统计学

概率论

1. 全概率公式与贝叶斯公式

2. 随机变量概率分布与概率密度

指数分布

伯努利散布

正态分布

二元随机变量 $f(x,y)$

Laplace 散布和 Dirac 散布

3. 冀望与方差

4. 大数定律

依概率收敛

辛钦大数定律

核心极限定理

5. 条件概率的链式法则

统计学

1. 统计量与抽样散布

2. 总体与样本分布

3. 点估计

4. 估计量的评估准则

信息论及其他

1. 信息论

2. 其余

Just My Socks（注册教程内含优惠码）

关于算法:算法工程狮三数学基础-概率论及统计学

概率论

1. 全概率公式与贝叶斯公式

2. 随机变量概率分布与概率密度

指数分布

伯努利散布

正态分布

二元随机变量 $f(x,y)$

Laplace 散布和 Dirac 散布

3. 冀望与方差

4. 大数定律

依概率收敛

辛钦大数定律

核心极限定理

5. 条件概率的链式法则

统计学

1. 统计量与抽样散布

2. 总体与样本分布

3. 点估计

4. 估计量的评估准则

信息论及其他

1. 信息论

2. 其余

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）