作者：韩信子@ShowMeAI
教程地址：http://www.showmeai.tech/tutorials/83
本文地址：http://www.showmeai.tech/article-detail/164
申明：版权所有，转载请分割平台与作者并注明出处

信息论是使用概率论与数理统计的办法钻研信息、信息熵、通信零碎、数据传输、密码学、数据压缩等问题的利用数学学科。信息论中蕴含的常识和概念在机器学习中也有利用，典型的例子是其核心思想『熵』的利用。

例如，决策树模型ID3、C4.5中是利用信息增益来确定划分特色而逐渐成长和构建决策树的；其中，信息增益就是基于信息论中的熵。

1.熵（Entropy）

熵是1854年由克劳休斯提出的一个用来度量体系凌乱水平的单位，并论述了热力学第二定律熵增原理：在孤立零碎中，体系与环境没有能量替换，体系总是自发的向凌乱度增大的方向变动，使整个零碎的熵值越来越大。

熵越大，表征的随机变量的不确定度越大，其含有的信息量越多。

随机变量$ X $可能的取值为

$$\left\{ x_{1},x_{2} ,\dots ,x_{n} \right\} $$

其概率分布为$ P\left( X=x_{i} \right) =p_{i} $，$ i = 1, 2, \dots, n $，则随机变量$ X $的熵定义为$ H(X) $：

$$H\left( X \right) =-\sum_{i=1}^{n}{P\left( x_{i} \right) logP\left( x_{i} \right) } =\sum_{i=1}^{n}{P\left( x_{i} \right) \frac{1}{logP\left( x_{i} \right) } }$$

2.联结熵（Joint Entropy ）

联结熵，就是度量一个联结散布的随机零碎的不确定度。散布为$ P(x,y) $的一对随机变量$ (X,Y) $，其联结熵定义为：

$$H\left( X,Y \right) =-\sum_{i=1}^{n}{\sum_{j=1}^{n}{P\left( x_{i} ,y_{j} \right)} logP\left( x_{i},y_{j} \right) } =E\left[ \log\frac{1}{p(x,y)} \right]$$

联结熵的物理意义，是察看一个多随机变量的随机零碎取得的信息量，是对二维随机变量$ (X,Y) $不确定性的度量。

3.条件熵（Conditional Entropy）

$ Y $的条件熵是指『在随机变量$ X $产生的前提下，随机变量$ Y $产生新带来的熵』，用$ H(Y | X) $示意：

$$H\left(Y|X \right) =-\sum_{x,y}^{}{P\left( x,y \right) logP\left( y|x \right) }$$

条件熵的物理意义，在得悉某一确定信息的根底上获取另外一个信息时所取得的信息量，用来掂量在已知随机变量的$ X $条件下，随机变量$ Y $的不确定性。

4.绝对熵（Kullback–Leibler divergence）

绝对熵在信息论中用来形容两个概率分布差别的熵，叫作KL散度、绝对熵、互熵、穿插熵、信息增益。对于一个离散随机变量的两个概率分布$ P $和$ Q $来说，它们的绝对熵定义为：

$$D\left( P||Q \right) =\sum_{i=1}^{n}{P\left( x_{i} \right) log\frac{P\left( x_{i} \right) }{Q\left( x_{i} \right) } }$$

留神：公式中$ P $示意实在散布，$ Q $示意$ P $的拟合散布，$ D(P||Q) ≠ D(Q||P) $

绝对熵示意当用概率分布$ Q $来拟合实在散布$ P $时，产生的信息损耗。

5.互信息（Mutual Information）

互信息是信息论里一种有用的信息度量形式，它能够看成是一个随机变量中蕴含的对于另一个随机变量的信息量，或者说是一个随机变量因为已知另一个随机变量而缩小的不肯定性。

互信息的计算形式定义如下：

$$I\left( X,Y \right) =\sum_{x\in X}^{}{\sum_{y\in Y}^{}{P\left( x,y \right) } log\frac{P\left( x,y \right) }{P\left( x \right) P\left( y \right) } }$$

6.罕用等式（useful equations）

1）条件熵、联结熵与熵之间的关系

$$H\left( Y|X \right) =H\left( X,Y\right) -H\left( X \right)$$

推导过程如下：

$$\begin{array}{l}H(X, Y)-H(X) \\=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \\=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x) \\=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x) \\=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\=-\sum_{x, y} p(x, y) \log p(y \mid x)\end{array}$$

第二行推到第三行的根据是边缘散布$ P(x) $等于联结散布$ P(x,y) $的和；
第三行推到第四行的根据是把公因子$ logP(x) $乘进去，而后把$ x,y $写在一起；
第四行推到第五行的根据是：因为两个$ \sigma $都有$ P(x,y) $，故提取公因子$ P(x,y) $放到外边，而后把里边的$ -（log P(x,y) - log P(x)） $写成$ - log (P(x,y) / P(x) ) $；
第五行推到第六行的根据是：$ P(x,y) = P(x) * P(y|x) $，故$ P(x,y) / P(x) = P(y|x) $。

2）条件熵、联结熵与互信息之间的关系

$$H\left( Y|X \right) =H\left( Y \right) -I\left( X,Y \right)$$

推导过程如下：

$$\begin{array}{l}H(Y)-I(X, Y) \\=-\sum_{y} p(y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\=-\sum_{y}\left(\sum_{x} p(x, y)\right) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\=-\sum_{x, y} p(x, y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\=-\sum_{x, y} p(x, y) \log p(y \mid x) \\=H(Y \mid X)\end{array}$$

3）互信息的定义

由上方的两个公式

$ H(Y|X) = H(Y) - I(X,Y) $
$ H(Y|X) = H(X,Y) - H(X) $

能够推出$ I(X,Y)= H(X) + H(Y) - H(X,Y) $，此论断被少数文献作为互信息的定义

7.最大熵模型（Max Entropy Model）

机器学习畛域，概率模型学习过程中有一个最大熵原理，即学习概率模型时，在所有可能的概率分布中，熵最大的模型是最好的模型。

通常用约束条件来确定模型的汇合，所以最大熵模型原理也能够表述为：在满足约束条件的模型汇合中，选取熵最大的模型。

后面咱们晓得，若随机变量$ X $的概率分布是$ P\left( x_{i} \right) $，其熵的定义如下：

$$H\left( X \right) =-\sum_{i=1}^{n}{P\left( x_{i} \right) logP\left( x_{i} \right) } =\sum_{i=1}^{n}{P\left( x_{i} \right) \frac{1}{logP\left( x_{i} \right) } }$$

熵满足下列不等式：$ 0\leq H\left( X \right) \leq log\left| X \right| $

$ |X| $是 \)X \)的取值个数
当且仅当$ X $的散布是均匀分布时，左边的等号成立；也就是说，当$ X $遵从均匀分布时，熵最大。

直观地看，最大熵原理认为：

要抉择概率模型，首先必须满足已有的事实，即约束条件；
在没有更多信息的状况下，那些不确定的局部都是『等可能的』。最大熵原理通过熵的最大化来示意等可能性；『等可能』不易操作，而熵则是一个可优化的指标。

ShowMeAI相干文章举荐

图解线性代数与矩阵论
图解概率与统计
图解信息论
图解微积分与最优化

ShowMeAI系列教程举荐

图解Python编程：从入门到精通系列教程
图解数据分析：从入门到精通系列教程
图解AI数学根底：从入门到精通系列教程
图解大数据技术：从入门到精通系列教程