关于信息:平均互信息与条件熵

4次阅读

共计 4405 个字符,预计需要花费 12 分钟才能阅读完成。

本专栏蕴含信息论与编码的外围常识,按知识点组织,可作为教学或学习的参考。markdown 版本已归档至【Github 仓库:https://github.com/timerring/information-theory】或者公众号【AIShareLab】回复 信息论 获取。

均匀互信息

均匀互信息定义

$$
I(X ; Y)=E[I(x, y)]=H(X)-H(X \mid Y)
$$

  1. Y 末知, $\mathrm{X}$ 的不确定度为 $\mathrm{H}(\mathrm{X})$
  2. Y 已知, $\mathrm{X}$ 的不确定度变为 $\mathbf{H}(\mathbf{X} \mid \mathbf{Y})$

互信息 = 先验不确定性 – 后验不确定性 = 不确定性缩小的量

通信零碎中若发端的符号为 X 收端的符号为 Y。如果是 一一对应信道, 接管到 Y 后对 X 的不确定性将齐全打消:H(X|Y) = 0,个别状况 H(X|Y) < H(X), 即理解 Y 后对 X 的不确定度将缩小。

通过信道传输打消了一些不确定性, 取得了肯定的信息,故 $0 \leq I(X ; Y) \leq H(X)$

$I(X ; Y)=\sum_{i} \sum_{j} p(x_{i} y_{j}) \log \frac{p(x_{i} \mid y_{j})}{p(x_{i})}$

$=\sum_{i} \sum_{j} p(x_{i} y_{j}) \log \frac{p(x_{i} y_{j})}{p(x_{i}) p(y_{j})}=\sum_{i} \sum_{j} p(x_{i} y_{j}) \log \frac{p(y_{j} \mid x_{i})}{p(y_{j})}$

$=I(Y ; X)$

由上,均匀互信息具备 互易性:

$$
I(X ; Y)=I(Y ; X)
$$

例 假如一条电线上串联了 8 个灯泡 $ x_{1}, x_{2}, \ldots x_{8}$ 如图, 这 8 个灯泡损坏的概率相等 $p(x_{\mathbf{i}})=1 / 8$ , 现 假如只有一个灯泡已损坏, 以致串联灯泡都不能点亮。

未测量前, 8 个灯泡都有可能损坏, 它们损坏的先验概率: $p(x_{\mathrm{i}})=1 / 8$ , 这时存在的不确定性

$$
\mathrm{I}(\mathrm{x}_{i})=\log \frac{1}{\mathrm{p}(\mathrm{x}_{i})}=\log _{2} 8=3 \text {bit}
$$

测量 1 次后, 可知 4 个灯泡是好的, 另 4 个灯泡中有一个是坏的, 这时后验概率 $p(x_{\mathrm{i}} \mid y)=1 / 4$,尚存在的不确定性:

$$
\mathrm{I}(\mathrm{x}_{i} \mid \mathrm{y})=\log \frac{1}{\mathrm{p}(\mathrm{x}_{i} \mid \mathrm{y})}=\log _{2} 4=2 \text {bit}
$$

所取得的信息量就是测量前后不确定性缩小的量, 测量 1 次取得的信息量:

$$
I(x_{i} ; y_{j})=I(x_{i})-I(x_{i} \mid y)=3-2=1 b i t
$$

均匀互信息与各类熵的关系

$$
\begin{array}{c}
I(X ; Y)=H(X)-H(X \mid Y)=H(Y)-H(Y \mid X) \\
=H(X)+H(Y)-H(X Y) \\
H(X Y)=H(X)+H(Y \mid X)=H(Y)+H(X \mid Y) \\
H(X Y) \leq H(X)+H(Y)
\end{array}
$$

熵只是均匀不确定性的形容,不确定性的打消两熵之差才等于接收端所取得的信息量;

取得的信息量不应该和不确定性一概而论。

I(X;Y)示意 X 和 Y 之间的亲密水平,越大,越亲密。

下表有 12 条训练数据,记录了女性的择偶规范,每条数据蕴含了 4 个特色。这 4 个特色对后果的体现水平是不一样的。如何度量这种不同? 用均匀互信息

4 个特色和后果的概率分布别离为

$$
\begin{array}{c}
{\left[\begin{array}{l}
X_{1} \\
P
\end{array}\right]=\left[\begin{array}{ccc}
\text {帅} & \text {不帅} \\
2 / 3 & 1 / 3
\end{array}\right]\left[\begin{array}{c}
X_{2} \\
P
\end{array}\right]=\left[\begin{array}{ccc}
\text {好} & \text {不好} & \text {十分好} \\
1 / 2 & 1 / 3 & 1 / 6
\end{array}\right]} \\
{\left[\begin{array}{c}
X_{3} \\
P
\end{array}\right]=\left[\begin{array}{ccc}
\text {矮} & \text {高} & \text {中} \\
7 / 12 & 1 / 4 & 1 / 6
\end{array}\right] \quad\left[\begin{array}{c}
X_{4} \\
P
\end{array}\right]=\left[\begin{array}{ll}
\text {上进} & \text {不上进} \\
2 / 3 & 1 / 3
\end{array}\right]} \\
{\left[\begin{array}{l}
Y \\
P
\end{array}\right]=\left[\begin{array}{cc}
\text {嫁} & \text {不嫁} \\
1 / 2 & 1 / 2
\end{array}\right]}
\end{array}
$$

特色和后果之间的条件概率为 :

$$
\begin{array}{l}
P\left(Y \mid X_{2}\right)=\left[\begin{array}{cc}
1 / 2 & 1 / 2 \\
1 / 4 & 3 / 4 \\
1 & 0
\end{array}\right] \quad P\left(Y \mid X_{3}\right)=\left[\begin{array}{cc}
1 / 7 & 6 / 7 \\
1 & 0 \\
1 & 0
\end{array}\right] \\
P\left(Y \mid X_{4}\right)=\left[\begin{array}{ll}
5 / 8 & 3 / 8 \\
1 / 4 & 3 / 4
\end{array}\right] \\
\end{array}
$$

从而联结概率为 :

$$
\begin{array}{l}
P\left(X_{1}, Y\right)=\left[\begin{array}{ll}
1 / 4 & 5 / 12 \\
1 / 4 & 1 / 12
\end{array}\right] P\left(X_{2}, Y\right)=\left[\begin{array}{cc}
1 / 4 & 1 / 4 \\
1 / 12 & 1 / 4 \\
1 / 6 & 0
\end{array}\right] \\
P\left(X_{3}, Y\right)=\left[\begin{array}{cc}
1 / 12 & 1 / 2 \\
1 / 4 & 0 \\
1 / 6 & 0
\end{array}\right] P\left(X_{4}, Y\right)=\left[\begin{array}{ll}
5 / 12 & 1 / 4 \\
1 / 12 & 1 / 4
\end{array}\right]
\end{array}
$$

得条件熵: $H(Y \mid X_{1})=0.9067, H(Y \mid X_{2})=0.7704 , H(Y \mid X_{3})=0.3451, H(Y \mid X_{4})=0.9067$

均匀互信息为: $I(X_{1} ; Y)=0.0933, I(X_{2} ; Y)=0.2296 , I(X_{3} ; Y)=0.6549, I(X_{4} ; Y)=0.0933$ .

论断:身高是最次要特色, 其次是性情。只保留这两项即可。

维拉图

$$
\begin{array}{l}
I(X ; Y)=H(X)-H(X \mid Y) \\
=H(Y)-H(Y \mid X) \\
=H(X)+H(Y)-H(X Y) \\
H(X Y)=H(X)+H(Y \mid X) \\
=H(Y)+H(X \mid Y) \\
H(X Y) \leq H(X)+H(Y) \\
H(X) \geq H(X \mid Y) \\
H(Y) \geq H(Y \mid X) \\
\end{array}
$$

若信道是无噪一一对应信道, 信道传递概率:

$$
\begin{array}{c}
p(y \mid x)=\left\{\begin{array}{ll}
0 & y \neq f(x) \\
1 & y=f(x)
\end{array}\right. \\
p(x \mid y)=\frac{p(x y)}{p(y)}=\frac{p(x) p(y \mid x)}{\sum p(x) p(y \mid x)}=\left\{\begin{array}{ll}
0 & y \neq f(x) \\
1 & y=f(x)
\end{array}\right.
\end{array}
$$

计算得:

$$
H(X \mid Y)=0 ; H(Y \mid X)=0
$$

$$
I(X ; Y)=H(X)=H(Y)
$$

若信道输出端 $\mathbf{X}$ 与输入端 $Y$ 齐全统计独立

$$
\begin{array}{cc}
p(y \mid x)=p(y) & p(x \mid y)=p(x) \\
H(X \mid Y)=H(X) ; & H(Y \mid X)=H(Y)
\end{array}
$$

则: $I(X ; Y)=0$

条件熵

$H(X|Y)$: 信道疑义度,损失熵

  • 信源符号通过有噪信道传输后所引起的信息量的损失。

信源 X 的熵等于接管到的信息量加上损失掉的信息量。

$H(Y|X)$: 噪声熵,分布熵

  • 它反映了信道中噪声源的不确定性。

输入端信源 Y 的熵 $H(Y)$ 等于接管到对于 X 的信息量 $I(X;Y)$ 加上 $H(Y|X)$ , 这齐全是因为信道中噪声引起的。

均匀互信息的性质

非负性:$I(X ; Y) \geq 0$

互易性:$I(X ; Y)=I(Y ; X)$

凸函数性:

  • I(X ; Y) 为概率分布 p(x) 的上凸函数
  • 对于固定的概率分布 p(x), I(X ; Y) 为条件概率 $p(y \mid x)$ 的 下凸函数

极值性:$I(X ; Y) \leq H(X) ; I(X ; Y) \leq H(Y)$

若信道是下图所示的无躁一一对应信道,则有

$$
\begin{array}{l}
H(X \mid Y)=0 \\
H(Y \mid X)=0 \\
I(X ; Y)=H(X) \\
I(X ; Y)=H(Y)
\end{array}
$$

参考文献:

  1. Proakis, John G., et al. Communication systems engineering. Vol. 2. New Jersey: Prentice Hall, 1994.
  2. Proakis, John G., et al. SOLUTIONS MANUAL Communication Systems Engineering. Vol. 2. New Jersey: Prentice Hall, 1994.
  3. 周炯槃. 通信原理(第 3 版)[M]. 北京:北京邮电大学出版社, 2008.
  4. 樊昌信, 曹丽娜. 通信原理(第 7 版)[M]. 北京:国防工业出版社, 2012.
正文完
 0