关于数学:图解AI数学基础-信息论

43次阅读

共计 3713 个字符,预计需要花费 10 分钟才能阅读完成。

作者:韩信子 @ShowMeAI
教程地址:http://www.showmeai.tech/tutorials/83
本文地址:http://www.showmeai.tech/article-detail/164
申明:版权所有,转载请分割平台与作者并注明出处


信息论是使用概率论与数理统计的办法钻研信息、信息熵、通信零碎、数据传输、密码学、数据压缩等问题的利用数学学科。信息论中蕴含的常识和概念在机器学习中也有利用,典型的例子是其核心思想『熵』的利用。

例如,决策树模型 ID3、C4.5 中是利用信息增益来确定划分特色而逐渐成长和构建决策树的;其中,信息增益就是基于信息论中的熵。

1. 熵(Entropy)

熵是 1854 年由克劳休斯提出的一个用来度量体系凌乱水平的单位,并论述了热力学第二定律熵增原理:在孤立零碎中,体系与环境没有能量替换,体系总是自发的向凌乱度增大的方向变动,使整个零碎的熵值越来越大。

熵越大,表征的随机变量的不确定度越大,其含有的信息量越多


随机变量 \(X \)可能的取值为

$$
\left\{x_{1},x_{2} ,\dots ,x_{n} \right\}
$$

其概率分布为 \(P\left( X=x_{i} \right) =p_{i} \),\(i = 1, 2, \dots, n \),则随机变量 \(X \)的熵定义为 \(H(X) \):

$$
H\left(X \right) =-\sum_{i=1}^{n}{P\left( x_{i} \right) logP\left(x_{i} \right) } =\sum_{i=1}^{n}{P\left( x_{i} \right) \frac{1}{logP\left( x_{i} \right) } }
$$

2. 联结熵(Joint Entropy)

联结熵,就是度量一个联结散布的随机零碎的不确定度。散布为 \(P(x,y) \)的一对随机变量 \((X,Y) \),其联结熵定义为:

$$
H\left(X,Y \right) =-\sum_{i=1}^{n}{\sum_{j=1}^{n}{P\left( x_{i} ,y_{j} \right)} logP\left(x_{i},y_{j} \right) } =E\left[\log\frac{1}{p(x,y)} \right]
$$

联结熵的物理意义 ,是察看一个多随机变量的随机零碎取得的信息量,是对二维随机变量 \((X,Y) \) 不确定性的度量。

3. 条件熵(Conditional Entropy)

\(Y \)的条件熵是指『在随机变量 \(X \)产生的前提下,随机变量 \(Y \)产生新带来的熵』,用 \(H(Y | X) \)示意:

$$
H\left(Y|X \right) =-\sum_{x,y}^{}{P\left( x,y \right) logP\left(y|x \right) }
$$

条件熵的物理意义 ,在得悉某一确定信息的根底上获取另外一个信息时所取得的信息量,用来掂量在已知随机变量的 \(X \) 条件下,随机变量 \(Y \)的不确定性。

4. 绝对熵(Kullback–Leibler divergence)

绝对熵在信息论中用来形容两个概率分布差别的熵,叫作 KL 散度、绝对熵、互熵、穿插熵、信息增益。对于一个离散随机变量的两个概率分布 \(P \)和 \(Q \)来说,它们的绝对熵定义为:

$$
D\left(P||Q \right) =\sum_{i=1}^{n}{P\left( x_{i} \right) log\frac{P\left( x_{i} \right) }{Q\left( x_{i} \right) } }
$$

留神:公式中 \(P \)示意实在散布,\(Q \)示意 \(P \)的拟合散布,\(D(P||Q) ≠ D(Q||P) \)

绝对熵示意当用概率分布 \(Q \)来拟合实在散布 \(P \)时,产生的信息损耗。

5. 互信息(Mutual Information)

互信息是信息论里一种有用的信息度量形式,它能够看成是一个随机变量中蕴含的对于另一个随机变量的信息量,或者说是一个随机变量因为已知另一个随机变量而缩小的不肯定性。

互信息的计算形式定义如下:

$$
I\left(X,Y \right) =\sum_{x\in X}^{}{\sum_{y\in Y}^{}{P\left( x,y \right) } log\frac{P\left( x,y \right) }{P\left( x \right) P\left(y \right) } }
$$

6. 罕用等式(useful equations)

1)条件熵、联结熵与熵之间的关系

$$
H\left(Y|X \right) =H\left(X,Y\right) -H\left(X \right)
$$

推导过程如下

$$
\begin{array}{l}
H(X, Y)-H(X) \\
=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \\
=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x) \\
=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x) \\
=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\
=-\sum_{x, y} p(x, y) \log p(y \mid x)
\end{array}
$$

  • 第二行推到第三行的根据是边缘散布 \(P(x) \)等于联结散布 \(P(x,y) \)的和;
  • 第三行推到第四行的根据是把公因子 \(logP(x) \)乘进去,而后把 \(x,y \)写在一起;
  • 第四行推到第五行的根据是:因为两个 \(\sigma \)都有 \(P(x,y) \),故提取公因子 \(P(x,y) \)放到外边,而后把里边的 \(-(log P(x,y) – log P(x))\)写成 \(– log (P(x,y) / P(x) ) \);
  • 第五行推到第六行的根据是:\(P(x,y) = P(x) * P(y|x) \),故 \(P(x,y) / P(x) = P(y|x) \)。

2)条件熵、联结熵与互信息之间的关系

$$H\left(Y|X \right) =H\left(Y \right) -I\left(X,Y \right)$$

推导过程如下:

$$
\begin{array}{l}
H(Y)-I(X, Y) \\
=-\sum_{y} p(y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\
=-\sum_{y}\left(\sum_{x} p(x, y)\right) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\
=-\sum_{x, y} p(x, y) \log p(y)-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)} \\
=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\
=-\sum_{x, y} p(x, y) \log p(y \mid x) \\
=H(Y \mid X)
\end{array}
$$

3)互信息的定义


由上方的两个公式

  • \(H(Y|X) = H(Y) – I(X,Y) \)
  • \(H(Y|X) = H(X,Y) – H(X) \)

能够推出 \(I(X,Y)= H(X) + H(Y) – H(X,Y) \),此论断被少数文献作为互信息的定义

7. 最大熵模型(Max Entropy Model)

机器学习畛域,概率模型学习过程中有一个最大熵原理,即学习概率模型时,在所有可能的概率分布中,熵最大的模型是最好的模型。

通常用约束条件来确定模型的汇合,所以最大熵模型原理也能够表述为:在满足约束条件的模型汇合中,选取熵最大的模型。

后面咱们晓得,若随机变量 \(X \)的概率分布是 \(P\left( x_{i} \right) \),其熵的定义如下:

$$
H\left(X \right) =-\sum_{i=1}^{n}{P\left( x_{i} \right) logP\left(x_{i} \right) } =\sum_{i=1}^{n}{P\left( x_{i} \right) \frac{1}{logP\left( x_{i} \right) } }
$$

熵满足下列不等式:\(0\leq H\left( X \right) \leq log\left| X \right| \)

  • \(|X| \)是 \)X \)的取值个数
  • 当且仅当 \(X \)的散布是均匀分布时,左边的等号成立;也就是说,当 \(X \)遵从均匀分布时,熵最大。

直观地看,最大熵原理认为:

  • 要抉择概率模型,首先必须满足已有的事实,即约束条件;
  • 在没有更多信息的状况下,那些不确定的局部都是『等可能的』。最大熵原理通过熵的最大化来示意等可能性;『等可能』不易操作,而熵则是一个可优化的指标。

ShowMeAI 相干文章举荐

  • 图解线性代数与矩阵论
  • 图解概率与统计
  • 图解信息论
  • 图解微积分与最优化

ShowMeAI 系列教程举荐

  • 图解 Python 编程:从入门到精通系列教程
  • 图解数据分析:从入门到精通系列教程
  • 图解 AI 数学根底:从入门到精通系列教程
  • 图解大数据技术:从入门到精通系列教程

正文完
 0