频率派和贝叶斯派是两种不同的学派。频率派认为事件产生的概率齐全由已有数据决定;而贝叶斯学派认为事件产生的概率自身就合乎肯定的概率分布,而这个散布是人为主观确定的,也就称之为先验散布。频率派的代表次要就是极大似然预计(MLE),而贝叶斯学派的代表有极大后验预计和贝叶斯预计。
还是先温习下贝叶斯公式
$$P(\theta|X)=\dfrac{P(X|\theta)P(\theta)}{\sum_iP(X|\theta_i)P(\theta_i)}$$

  • $P(X|\theta)$:似然项,MLE就是极大这个货色
  • $P(\theta)$:先验概率,贝叶斯预计/极大后验预计就须要这个货色
  • $\sum_iP(X|\theta_i)P(\theta_i)$:归一化因子,使其成为一个概率,直观来看就是一个全概率公式
  • $P(\theta|X)$:后验概率

1.频率派-极大似然预计MLE

MLE最大化$L(\theta|D)=\argmax\limits_\theta\prod\limits_{i=1}^{n} P(x_i|\theta)$.MLE是齐全依附已知数据做出论断,不掺杂任何的先验。当数据量很大时,$\hat{\theta}_{MLE}$会预计的很好;但数据量很小时,可能会失去离谱的不牢靠后果

举例-抛硬币

设X为硬币侧面朝上的概率为$\theta$,侧面为1,背面为0,则一次抛硬币事件的概率分布为$P(X=x_i|\theta)\begin{cases} \theta,x_i=1(侧面) \\ 1-\theta,x_i=0(背面) \end{cases}$,则:
$$P(X=x_i|\theta)=\theta^{x_i}(1-\theta)^{1-x_i}$$
假如抛了n次硬币,则MLE使以下似然函数最大化:
$$\hat{\theta}_{MLE}=\argmax\limits_{\theta}\prod\limits_{i=1}^{n} P(x_i|\theta)=\argmin\limits_{\theta}-\sum\limits_{i=1}^{n}log P(x_i|\theta)$$
上式对$\theta$求导得:
$$\sum\limits_{i=1}^{n}(\dfrac{x_i}{\theta}-\dfrac{1-x_i}{1-\theta})=0$$
通分化简求$\theta$得:
$$\hat{\theta}_{MLE}=\dfrac{\sum\limits_{i=1}^{n}x_i}{n}$$
这不就是数一数硬币侧面朝上得比例嘛,如果硬币抛了两次,全副背面朝上,则失去侧面朝上得概率为0......
然而,一旦数据多了起来,则后果会越来越精确

2.贝叶斯派

贝叶斯派与频率派的区别是应用了先验概率,即认为参数得取值合乎肯定的概率分布,而这个散布是人为抉择的,因而称为先验。贝叶斯派又有两种:极大后验预计和贝叶斯预计,二者的区别是贝叶斯预计需要求出具体的概率分布并通过贝叶斯决策失去参数的最优预计,使总体冀望危险最小

极大后验预计MAP

极大后验预计,和MLE相似,是点估计的一种,在似然项前面跟了先验概率。
$$\hat{\theta}_{MAP}=\argmax\limits_{\theta}\prod\limits_{i=1}^{n} P(x_i|\theta)\cdot P(\theta)=\argmin\limits_{\theta}-\sum\limits_{i=1}^{n}log P(x_i|\theta)\cdot P(\theta)$$

贝叶斯预计

贝叶斯预计则是需要求出参数散布,即求出贝叶斯公式中的后验概率$P(\theta|X)$,而后做一个群体决策,如果用公式示意,则贝叶斯预计求参数如下:
$$\hat{\theta}_{Bayes}=\int\theta P(\theta|X)d\theta$$
当然,这是假如损失函数为均方损失时计算得来的。

3.比拟

后面咱们曾经通过三种办法对参数$\theta$做出了预计。此时,若新数据降临,则三种办法做预测的步骤是:
$$\begin{cases} MLE:依据参数间接预测P(X=x^{new}|\theta),参数\theta已知 \\ MAP:依据参数间接预测P(X=x^{new}|\theta),参数\theta已知 \\ Bayes预计: P(x^{new}|X)=\int P(\theta|X)P(x^{new}|X,\theta)d\theta=\int P(x^{new},\theta|X)d\theta,先依据X计算所有\theta,再积分 \end{cases}$$

4.概率的概率分布

概率的概率分布其实就是小数(0-1之间)的散布,之所以要讲概率的概率分布,是因为有两点益处,一点是概率的概率分布能够由此建模;第二点是用此做先验能够和似然组成共轭散布,使得后验概率与先验概率同散布。

Beta散布

$$P(\theta|\alpha,\beta)=\dfrac{\theta^{\alpha-1}(1-\theta)^{\beta-1}}{B(\alpha,\beta)}$$
其中,和是两个控制参数,分母是标准化函数,使其成为一个概率分布。Beta散布有如下长处:

  • 形态随和扭转,能够通过参数管制概率峰值
  • $E(\theta)=\dfrac{\alpha}{\alpha+\beta}$,随机变量冀望为峰值。假如==100,那么峰值就在0.5处,=100,=200,峰值就在0.333处
  • 当似然为伯努利散布时,beta散布与其形成共轭散布
  • beta散布实用于二分类建模
Dirichilet散布

迪利克雷散布与beta散布相似,不过是对多分类参数概率分布建模,且与多项式散布组成共轭散布
$$P(\theta_1,\theta_2,...,\theta_k|\alpha_1,\alpha_2,...,\alpha_k)=\dfrac{1}{B(\alpha_1,\alpha_2,...,\alpha_k)}\prod\limits_{i=1}^{k}\theta_i^{\alpha_i-1}$$

5.共轭散布与共轭先验

后面提到过抛硬币,假如抛了m次硬币,其中$m_\alpha$次朝上,$m_\beta$次朝下,则似然项$P(X|\theta)=\theta^{m_\alpha}(1-\theta)^{m_{_\beta}}$。如果此时咱们认为硬币朝上的概率应该简略的认为是数次数,而应该是满足肯定的概率分布,那么假如咱们抉择beta散布作为先验,根据贝叶斯公式,则后验概率$P(\theta|X)$可示意为:
$$P(\theta|X)\propto P(X|\theta)\cdot P(\theta)$$
如果先验抉择Beta散布B(,),则后验概率可示意为:
$$\begin{aligned} P(\theta|X) & \propto \theta^{m_\alpha}(1-\theta)^{m_{_\beta}}\cdot \theta^{\alpha-1}(1-\theta)^{\beta-1} \\ & \propto \theta^{m_\alpha+\alpha-1}(1-\theta)^{m_{_\beta}+\beta-1} \end{aligned}$$
会发现,后验散布也合乎Beta散布,与先验散布同类,只不过参数有所变动,此时称先验散布和后验散布为共轭散布,先验称为似然的共轭先验
共轭散布有很多益处,最重要的是计算不便。当来了新的观测数据时,咱们只须要简略的批改参数和,使之成为新的先验散布

6.先验的作用

Beta散布的参数

加了Beta散布的抛硬币,theta的预测不再是数次数,而是应用贝叶斯预计,通过积分求冀望失去。后面说过,此时的后验概率属于Beta散布,而Beta散布的冀望是$\dfrac{\alpha}{\alpha+\beta}$,对于抛硬币来讲,参数的预计(冀望)变成了$\dfrac{\alpha+m_\alpha}{\alpha+m_\alpha+\beta+m_\beta}$。假如咱们设置==100,即先验认为抛硬币侧面朝上的概率最可能是0.5,那么通过试验抛硬币,即便开始的几次抛硬币全是背面,那么咱们所得出的论断也不会有太大问题
此外,和能够是历史数据,也可是人为设置的初值。更能够说,和像是先验强度,当咱们将和设置的很大时(比方10000),咱们须要足够多的数据纠正先验(如果先验不正确),如果设置的很小(10),咱们只须要大量数据即可批改先验,或者说咱们对参数的概率分布也不确定。

先验的作用

先验就是在数据少时避免推断出过于不牢靠的后果,换句话说,先验是在数据量很少时对偏差的修改。具体来说,如果贝叶斯做参数估计,或者说做预测(预测新硬币侧面朝上的概率和估算硬币侧面朝上的概率参数等价),则:
$$\hat{\theta}_{Bayes}=\int\theta P(\theta|X)d\theta=\dfrac{\alpha+m_\alpha}{\alpha+m_\alpha+\beta+m_\beta}$$
当应用MLE做预测,似然函数如下:
$$\prod\limits_{i=1}^{n} P(x_i|\theta)=\theta^{m_\alpha}(1-\theta)^{m_{_\beta}}$$
参数估计如下:
$$\hat{\theta}_{MLE}=\argmax\limits_{\theta}\prod\limits_{i=1}^{n} P(x_i|\theta)=\argmin\limits_{\theta}-\sum\limits_{i=1}^{n}log P(x_i|\theta)$$
求导后,解得最优为$\dfrac{m_\alpha}{m_\alpha+m_\beta}$
二者进行比拟,能够发现,在后期数据少的时候,先验主导了参数估计,使得预测不至于太差;而随着数据量增多,先验常识逐步削弱,数据的重要性逐步加强,因而,数据量比拟小的时候,先验往往可能带来益处

7.Laplace平滑

Laplace平滑在奢侈贝叶斯外面会用到的一种办法,实践正好是这篇文章中写的,就顺便在这里先写了。
多分类场景下,咱们要预测各个类别可能的概率。则贝叶斯做如下预计:
$$P(\theta_1,\theta_2,...,\theta_k|X)\propto P(X|\theta_1,\theta_2,...,\theta_k)P(\theta_1,\theta_2,...,\theta_k)$$
其中,似然项为多项式散布:$P(X|\theta_1,\theta_2,...,\theta_k)=\theta_1^{m_1}\theta_2^{m_2}...\theta_k^{m_k}$,先验为迪利克雷散布:$P(\theta_1,\theta_2,...,\theta_k)=\theta_1^{\alpha_1-1}\theta_2^{\alpha_2-1}...\theta_k^{\alpha_k-1}$,则后验散布与先验散布组成共轭散布:
$$P(\theta_1,\theta_2,...,\theta_k|X)\propto \theta_1^{m_1+\alpha_1-1}\theta_2^{m_2+\alpha_2-1}...\theta_k^{m_k+\alpha_k-1}$$
当做预测时X属于第j类:
$$\begin{aligned}P(Y=c_j|X) & =\int P(Y=j,\theta_j|X)d\theta_j \\ & =\int P(Y=j,|X,\theta_j)P(\theta_j|X)d\theta_j \\ &=\int \theta_jP(\theta_j|X)d\theta_j\end{aligned}$$
咱们看到,第二步向第三步转化是因为$\theta_j$自身就代表属于第J类的概率
因而预测即求冀望的过程,而迪利克雷的冀望为:
$$P(Y=c_j|X)=\dfrac{m_j+\alpha_j}{\sum\limits_{i=1}^{k}(m_i+\alpha_i)}=\dfrac{m_j+\alpha_j}{N+\sum\limits_{i=1}^{k}\alpha_i}$$
当咱们简略的认为每个类别呈现的概率统一,即为,则公式化简为:$P(Y=c_j|X)=\dfrac{m_j+\lambda}{N+k\lambda}$。当取值为1时,则称为Laplace平滑,当为0时,则不掺先验,变成了MLE。
留神,奢侈贝叶斯参数估计为贝叶斯预计,而标签训练为极大后验预计

8.贝叶斯推断

贝叶斯推断就是更新数据认知的过程。新数据来了后,计算后验,而后通过后验更新先验。
或者说贝叶斯推断就是通过重复应用贝叶斯定理,继续更新对未知变量的认知的过程

9.其余

构造危险-MLE
冀望危险-Bayes
教训危险-MAP