关于算法:算法工程狮六频率派与贝叶斯派

2次阅读

共计 5337 个字符,预计需要花费 14 分钟才能阅读完成。

频率派和贝叶斯派是两种不同的学派。频率派认为事件产生的概率齐全由已有数据决定;而贝叶斯学派认为事件产生的概率自身就合乎肯定的概率分布,而这个散布是人为主观确定的,也就称之为先验散布。频率派的代表次要就是极大似然预计 (MLE),而贝叶斯学派的代表有极大后验预计和贝叶斯预计。
还是先温习下贝叶斯公式
$$P(\theta|X)=\dfrac{P(X|\theta)P(\theta)}{\sum_iP(X|\theta_i)P(\theta_i)}$$

  • $P(X|\theta)$: 似然项,MLE 就是极大这个货色
  • $P(\theta)$: 先验概率,贝叶斯预计 / 极大后验预计就须要这个货色
  • $\sum_iP(X|\theta_i)P(\theta_i)$: 归一化因子,使其成为一个概率,直观来看就是一个全概率公式
  • $P(\theta|X)$: 后验概率

1. 频率派 - 极大似然预计 MLE

MLE 最大化 $L(\theta|D)=\argmax\limits_\theta\prod\limits_{i=1}^{n} P(x_i|\theta)$.MLE 是齐全依附已知数据做出论断,不掺杂任何的先验。当数据量很大时,$\hat{\theta}_{MLE}$ 会预计的很好;但数据量很小时,可能会失去离谱的不牢靠后果

举例 - 抛硬币

设 X 为硬币侧面朝上的概率为 $\theta$,侧面为 1,背面为 0,则一次抛硬币事件的概率分布为 $P(X=x_i|\theta)\begin{cases} \theta,x_i=1(侧面) \\ 1-\theta,x_i=0(背面) \end{cases}$,则:
$$P(X=x_i|\theta)=\theta^{x_i}(1-\theta)^{1-x_i}$$
假如抛了 n 次硬币,则 MLE 使以下似然函数最大化:
$$\hat{\theta}_{MLE}=\argmax\limits_{\theta}\prod\limits_{i=1}^{n} P(x_i|\theta)=\argmin\limits_{\theta}-\sum\limits_{i=1}^{n}log P(x_i|\theta)$$
上式对 $\theta$ 求导得:
$$\sum\limits_{i=1}^{n}(\dfrac{x_i}{\theta}-\dfrac{1-x_i}{1-\theta})=0$$
通分化简求 $\theta$ 得:
$$\hat{\theta}_{MLE}=\dfrac{\sum\limits_{i=1}^{n}x_i}{n}$$
这不就是数一数硬币侧面朝上得比例嘛,如果硬币抛了两次,全副背面朝上,则失去侧面朝上得概率为 0 ……
然而,一旦数据多了起来,则后果会越来越精确

2. 贝叶斯派

贝叶斯派与频率派的区别是应用了 先验概率 ,即认为参数得取值合乎肯定的概率分布,而这个散布是人为抉择的,因而称为先验。贝叶斯派又有两种:极大后验预计和贝叶斯预计,二者的区别是 贝叶斯预计需要求出具体的概率分布并通过贝叶斯决策失去参数的最优预计,使总体冀望危险最小

极大后验预计 MAP

极大后验预计,和 MLE 相似,是点估计的一种,在似然项前面跟了先验概率。
$$\hat{\theta}_{MAP}=\argmax\limits_{\theta}\prod\limits_{i=1}^{n} P(x_i|\theta)\cdot P(\theta)=\argmin\limits_{\theta}-\sum\limits_{i=1}^{n}log P(x_i|\theta)\cdot P(\theta)$$

贝叶斯预计

贝叶斯预计则是需要求出参数散布,即求出贝叶斯公式中的后验概率 $P(\theta|X)$,而后做一个群体决策, 如果用公式示意,则贝叶斯预计求参数如下:
$$\hat{\theta}_{Bayes}=\int\theta P(\theta|X)d\theta$$
当然,这是假如损失函数为均方损失时计算得来的。

3. 比拟

后面咱们曾经通过三种办法对参数 $\theta$ 做出了预计。此时,若新数据降临,则三种办法做预测的步骤是:
$$\begin{cases} MLE: 依据参数间接预测 P(X=x^{new}|\theta), 参数 \theta 已知 \\ MAP: 依据参数间接预测 P(X=x^{new}|\theta), 参数 \theta 已知 \\ Bayes 预计: P(x^{new}|X)=\int P(\theta|X)P(x^{new}|X,\theta)d\theta=\int P(x^{new},\theta|X)d\theta, 先依据 X 计算所有 \theta, 再积分 \end{cases}$$

4. 概率的概率分布

概率的概率分布其实就是小数(0- 1 之间)的散布,之所以要讲概率的概率分布,是因为有两点益处,一点是概率的概率分布能够由此建模;第二点是用此做先验能够和似然组成共轭散布,使得后验概率与先验概率同散布。

Beta 散布

$$P(\theta|\alpha,\beta)=\dfrac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha,\beta)}$$
其中,α 和 β 是两个控制参数,分母是标准化函数,使其成为一个概率分布。Beta 散布有如下长处:

  • 形态随 α 和 β 扭转,能够通过参数管制概率峰值
  • $E(\theta)=\dfrac{\alpha}{\alpha+\beta}$,随机变量冀望为峰值。假如 α =β=100,那么峰值就在 0.5 处,α=100,β=200,峰值就在 0.333 处
  • 当似然为伯努利散布时,beta 散布与其形成共轭散布
  • beta 散布实用于二分类建模
Dirichilet 散布

迪利克雷散布与 beta 散布相似,不过是对多分类参数概率分布建模,且与多项式散布组成共轭散布
$$P(\theta_1,\theta_2,…,\theta_k|\alpha_1,\alpha_2,…,\alpha_k)=\dfrac{1}{B(\alpha_1,\alpha_2,…,\alpha_k)}\prod\limits_{i=1}^{k}\theta_i^{\alpha_i-1}$$

5. 共轭散布与共轭先验

后面提到过抛硬币,假如抛了 m 次硬币,其中 $m_\alpha$ 次朝上,$m_\beta$ 次朝下,则似然项 $P(X|\theta)=\theta^{m_\alpha}(1-\theta)^{m_{_\beta}}$。如果此时咱们认为硬币朝上的概率 应该简略的认为是 数次数 ,而应该是 满足肯定的概率分布 ,那么假如咱们抉择 beta 散布作为先验,根据贝叶斯公式,则后验概率 $P(\theta|X)$ 可示意为:
$$P(\theta|X)\propto P(X|\theta)\cdot P(\theta)$$
如果先验抉择 Beta 散布 B(α,β),则后验概率可示意为:
$$\begin{aligned} P(\theta|X) & \propto \theta^{m_\alpha}(1-\theta)^{m_{_\beta}}\cdot \theta^{\alpha-1}(1-\theta)^{\beta-1} \\ & \propto \theta^{m_\alpha+\alpha-1}(1-\theta)^{m_{_\beta}+\beta-1} \end{aligned}$$
会发现,后验散布也合乎 Beta 散布,与先验散布同类,只不过参数有所变动,此时称先验散布和后验散布为共轭散布,先验称为似然的共轭先验
共轭散布有很多益处,最重要的是计算不便。当来了新的观测数据时,咱们只须要简略的批改参数 α 和 β,使之成为新的先验散布

6. 先验的作用

Beta 散布的参数

加了 Beta 散布的抛硬币,theta 的预测不再是数次数,而是应用贝叶斯预计,通过积分求冀望失去。后面说过,此时的后验概率属于 Beta 散布,而 Beta 散布的冀望是 $\dfrac{\alpha}{\alpha+\beta}$,对于抛硬币来讲,参数的预计(冀望)变成了 $\dfrac{\alpha+m_\alpha}{\alpha+m_\alpha+\beta+m_\beta}$。假如咱们设置 α =β=100,即先验认为抛硬币侧面朝上的概率最可能是 0.5,那么通过试验抛硬币,即便开始的几次抛硬币全是背面,那么咱们所得出的论断也不会有太大问题
此外,α 和 β 能够是历史数据,也可是人为设置的初值。更能够说,α 和 β 像是先验强度,当咱们将 α 和 β 设置的很大时(比方 10000),咱们须要足够多的数据纠正先验(如果先验不正确),如果设置的很小(10),咱们只须要大量数据即可批改先验,或者说咱们对参数的概率分布也不确定。

先验的作用

先验就是在数据少时避免推断出过于不牢靠的后果,换句话说,先验是在数据量很少时对偏差的修改 。具体来说,如果贝叶斯做参数估计,或者说做预测(预测新硬币侧面朝上的概率和估算硬币侧面朝上的概率参数等价),则:
$$\hat{\theta}_{Bayes}=\int\theta P(\theta|X)d\theta=\dfrac{\alpha+m_\alpha}{\alpha+m_\alpha+\beta+m_\beta}$$
当应用 MLE 做预测,似然函数如下:
$$\prod\limits_{i=1}^{n} P(x_i|\theta)=\theta^{m_\alpha}(1-\theta)^{m_{_\beta}}$$
参数估计如下:
$$\hat{\theta}_{MLE}=\argmax\limits_{\theta}\prod\limits_{i=1}^{n} P(x_i|\theta)=\argmin\limits_{\theta}-\sum\limits_{i=1}^{n}log P(x_i|\theta)$$
求导后,解得最优 θ 为 $\dfrac{m_\alpha}{m_\alpha+m_\beta}$
二者进行比拟,能够发现,在后期数据少的时候,先验主导了参数估计,使得预测不至于太差;而随着数据量增多,先验常识逐步削弱,数据的重要性逐步加强,因而,数据量比拟小的时候,先验往往可能带来益处

7.Laplace 平滑

Laplace 平滑在奢侈贝叶斯外面会用到的一种办法,实践正好是这篇文章中写的,就顺便在这里先写了。
多分类场景下,咱们要预测各个类别可能的概率。则贝叶斯做如下预计:
$$P(\theta_1,\theta_2,…,\theta_k|X)\propto P(X|\theta_1,\theta_2,…,\theta_k)P(\theta_1,\theta_2,…,\theta_k)$$
其中,似然项为多项式散布:$P(X|\theta_1,\theta_2,…,\theta_k)=\theta_1^{m_1}\theta_2^{m_2}…\theta_k^{m_k}$, 先验为迪利克雷散布:$P(\theta_1,\theta_2,…,\theta_k)=\theta_1^{\alpha_1-1}\theta_2^{\alpha_2-1}…\theta_k^{\alpha_k-1}$,则后验散布与先验散布组成共轭散布:
$$P(\theta_1,\theta_2,…,\theta_k|X)\propto \theta_1^{m_1+\alpha_1-1}\theta_2^{m_2+\alpha_2-1}…\theta_k^{m_k+\alpha_k-1}$$
当做预测时 X 属于第 j 类:
$$\begin{aligned}P(Y=c_j|X) & =\int P(Y=j,\theta_j|X)d\theta_j \\ & =\int P(Y=j,|X,\theta_j)P(\theta_j|X)d\theta_j \\ &=\int \theta_jP(\theta_j|X)d\theta_j\end{aligned}$$
咱们看到,第二步向第三步转化是因为 $\theta_j$ 自身就代表属于第 J 类的概率
因而预测即求冀望的过程,而迪利克雷的冀望为:
$$P(Y=c_j|X)=\dfrac{m_j+\alpha_j}{\sum\limits_{i=1}^{k}(m_i+\alpha_i)}=\dfrac{m_j+\alpha_j}{N+\sum\limits_{i=1}^{k}\alpha_i}$$
当咱们简略的认为每个类别呈现的概率统一,即 α 为 λ,则公式化简为:$P(Y=c_j|X)=\dfrac{m_j+\lambda}{N+k\lambda}$。当 λ 取值为 1 时,则称为 Laplace 平滑,当 λ 为 0 时,则不掺先验,变成了 MLE。
留神,奢侈贝叶斯参数估计为贝叶斯预计,而标签训练为极大后验预计

8. 贝叶斯推断

贝叶斯推断就是更新数据认知的过程。新数据来了后,计算后验,而后通过后验更新先验。
或者说贝叶斯推断就是通过重复应用贝叶斯定理,继续更新对未知变量的认知的过程

9. 其余

构造危险 -MLE
冀望危险 -Bayes
教训危险 -MAP

正文完
 0