信息论1-熵

同步于CSDN;音尘杂记

信息论(Information Theory)是数学、物理、统计、计算机科学等多个学科的交叉领域。信息论是由Claude Shannon 最早提出的,主要研究信息的量化、存储和通信等方法。这里,“信息”是指一组消息的集合。假设在一个噪声通道上发送消息,我们需要考虑如何对每一个信息进行编码、传输以及解码,使得接收者可以尽可能准确地重构出消息。

在机器学习相关领域,信息论也有着大量的应用。比如特征抽取、统计推断、自然语言处理等。

1. 自信息和熵

熵(Entropy)最早是物理学的概念,用于表示一个热力学系统的无序程度。在信息论中,熵用来衡量一个随机事件的不确定性。假设对一个随机变量$X$(取值集合为$\cal{X}$,概率分布为$p(x), x \in \cal{X}$)进行编码,自信息(Self Information) $I(x)$是变量$X = x$时的信息量或编码长度,定义为

那么随机变量$X$的平均编码长度,即熵定义为

其中当$p(x_i) = 0$时,我们定义$0 log 0 = 0$,与极限一致,$\lim_{p\to 0+} p log p = 0$。

熵是一个随机变量的平均编码长度,即自信息的数学期望。熵越高,则随机变量的信息越多,熵越低;则信息越少。如果变量$X$当且仅当在$x$时$p(x) = 1$,则熵为0。也就是说,对于一个确定的信息(不确定概率为0),其熵为0,信息量也为0。如果其概率分布为一个均匀分布,则熵最大。假设一个随机变量X 有三种可能值$x_1, x_2, x_3$,不同概率分布对应的熵如下:

p(x1) p(x2) p(x3)
1 0 0 0
1/2 1/4 1/4 $\frac{3}{2}(log2)$
1/3 1/3 1/3 log3

2. 联合熵和条件熵

对于两个离散随机变量$X$和$Y$ ,假设$X$取值集合为$cal{X}$;$Y$取值集合为$\cal{Y}$,其联合概率分布满足为$p(x, y)$,

则$X$和$Y$的联合熵(Joint Entropy)

$X$和$Y$的条件熵(Conditional Entropy)

根据其定义,条件熵也可以写为

3. 互信息

互信息(Mutual Information)是衡量已知一个变量时,另一个变量不确定性的减少程度。两个离散随机变量X 和Y 的互信息定义为

互信息的一个性质为

如果X和Y相互独立,即X不对Y提供任何信息,反之亦然,因此它们的互信息最小, 即$I(X;Y)$为零。

主要参考https://github.com/nndl/nndl.github.io

作者

Buracag

发布于

2019-06-21

更新于

2019-06-24

许可协议

评论