关于机器学习:最大似然估计MLE入门教程

什么是最大似然预计(MLE)

最大似然预计(Maximum Likelihood Estimation)是一种能够生成拟合数据的任何散布的参数的最可能预计的技术。它是一种解决建模和统计中常见问题的办法——将概率分布拟合到数据集。

例如，假如数据来自泊松()散布，在数据分析时须要晓得参数来了解数据。这时就能够通过计算MLE找到给定数据的最有可能的，并将其用作对参数的良好预计。

MLE是用于拟合或预计数据集概率分布的频率法。这是因为MLE从不计算假如的概率，而贝叶斯解会同时应用数据和假如的概率。MLE假如在计算方法之前，所有的解决方案(散布的参数)都是等可能的，而贝叶斯办法(MAP)不是这样，它应用了对于散布参数的先验信息。

MLE之所以无效，是因为它将寻找数据分布的参数视为一个优化问题。通过最大化似然函数，找到了最可能的解。

了解似然函数

顾名思义，最大似然预计是通过最大化似然函数来计算的。(从技术上讲，这不是找到它的惟一办法，但这是最间接的办法)。

似然函数是掂量样本成为察看到数据的概率。

如果数据集有1-n个独立同散布的(iid)随机变量，X至X，与察看到的数据 x 到 x 相干，咱们就有似然函数的数学表达式：

这能够很好地概念化似然函数——然而咱们如何将其合成为能够从数据中计算出来的货色呢？换句话说，咱们怎样才能找到最大化咱们的似然函数的，并且确认他是最大化的？

给定

那么

因为所有随机变量作为察看数据值的概率等于每个随机变量作为每个数据值的概率（因为它们是独立同散布的）。

最初，如果数据来自的散布具备密度函数 f(x)，例如泊松散布，

那么似然函数示意为

对于下面的泊松散布的例子，似然函数将是

总之，似然函数是作为给定散布参数的函数给出的观测数据的联结概率。

如何最大化似然函数

当初能够用数学形式表白给定散布的似然函数，但看起来它是一个须要最大化甚至求导数的函数。那么如何无效地最大化似然函数呢？

取它的对数

尽管似然函数通常难以在数学上最大化，但似然函数的对数通常更容易解决。咱们这样做的实践根底是：最大化对数似然的值也最大化似然函数。

泊松散布示例

咱们持续应用下面曾经建设的泊松散布作为示例。给定数据集X…X，这是i.i.d.，咱们认为它来自泊松()散布，的MLE是多少?散布中的参数的最大似然预计是什么?

总结一下，计算MLE的步骤如下:

求似然函数
计算对数似然函数
最大化对数似然函数

首先，咱们曾经建设了似然函数为

为了计算对数似然，咱们取上述函数的对数。能够通过以下步骤推导:

最初，咱们最大化对数似然和简化，就失去最大似然。

咱们发现的最大似值是x的均值，或给定数据集x…x的均值。

能够用MLE做什么

最直观的是给定数据集散布参数MLE，能够持续对数据集利用统计技术，并对数据集的确切散布做出假如。这样能够使统计分析更弱小。除了数据集散布的预计参数外，MLE还有两个很有用的重要属性。

1、MLE 是它正在预计的参数的统一估计量。

参数的预计是统一的，如果

为什么会这样呢?因为大数定律。n很大，预计与相差很大的概率很小。

因为MLE是它所预计的参数的统一预计

这通知咱们什么？数据集越大，MLE 预计越精确。

2、MLE 是渐近正态的

这意味着如果 MLE 预计器正在预计（是参数的实在总体值），那么随着 n 减少到 ∞，

要查找µ和2，能够应用Fisher Information等其余技术，它通知咱们更多对于 MLE 自身的散布。但这超出了本文的范畴。

总结

MLE 是一种技术，能够生成对要拟合数据的任何散布的参数的最可能估计值。估计值是通过最大化数据来自的散布的对数似然函数来计算的。本文解释了 MLE 的工作原理和形式，以及它与 MAP 等相似办法的不同之处。还解释了似然函数的定义以及如何推导它。最初还应用了一个从泊松散布计算 MLE 的示例，并解释了 MLE 的两个重要属性，即一致性和渐近正态性。心愿这对任何学习统计和数据迷信的人有所帮忙！

https://avoid.overfit.cn/post/7c8d4ccce5ba4c00bac91cdb335796df

作者：Edison