智能搜索和推荐系统:原理、算法与应用
上QQ阅读APP看书,第一时间看更新

1.3.5 信息熵

简单地说,熵是信息论中对不确定性和无序程度的一种测度。熵越大,代表信息越混乱和不确定。反过来,熵越小,代表信息更有序、规则。

熵:已知离散型随机变量X的概率p(x)=P(X=x)(x∈R),则X的熵H(X)为

假设0≤p(x)≤1,一个二元信息熵可以简单表示为

从图1-11可以看出,当p(x)=0.5时,熵达到最大,不确定性达到最大;当p(x)=0或者p(x)=1时,熵最小,不确定性最小。

图1-11 二元信息熵曲线

随机变量的熵小于等于随机变量取值个数的对数值:H(x)≤log2|x|。当且仅当概率平均分布时,H(x)的最大值为p(x)=1/|x|。

信息熵可以应用于有监督学习算法。决策树ID3、C4.5就是以熵作为测度的分类算法。

联合熵:如果(X,Y)表示一对离散随机变量的不确定性,即X,Y~p(x,y),则它们的联合熵H(X,Y)为

联合熵是一对随机变量所需信息量的平均测度。

条件熵:在给定随机变量X的情况下,随机变量Y的条件熵定义为

自信息:表示事件X发生的不确定性,也用来表示事件所包含的信息量,可表示为

互信息:事件X、Y之间的互信息等于X的自信息减去Y条件下X的自信息,可表示为

互信息I(X;Y)是已知Y值后X不确定性的减少量。

联合熵、条件熵和互信息间的对应关系如图1-12所示。

图1-12 联合熵、条件熵和互信息间的对应关系