第6讲 联合熵与条件熵
更新时间:2024-06-16 13:55:01 阅读量: 综合文库 文档下载
第6讲 联合熵与条件熵
信息熵H(X)反映了随机变量X的取值不确定性。当X是常量时,其信息熵最小,等于0;当X有n个取值时,当且仅当这些取值的机会均等时,信息熵H(X)最大,等于logn比特。我们拓展信息熵H(X)的概念,考虑两个随机变量X和Y的联合熵H(XY)和条件熵H(Y|X)。
1. 联合熵
设X,Y是两个随机变量, 则(X,Y)是二维随机变量,简写为XY。 二维随机变量XY的联合概率分布记为p(xy),即 p?xy??Pr?X?x,Y?y? 根据信息熵的定义可知,XY的信息熵为 H(XY)?
定义1.1 二维随机变量XY的信息熵H(XY)称为X与Y的联合熵(joint entropy)。 它反映了二维随机变量XY的取值不确定性。我们把它理解为X和Y取值的总的不确定性。 练习:
假设有甲乙两只箱子,每个箱子里都存放着100个球。甲里面有红蓝色球各50个,乙里面红、蓝色的球分别为99个和1个。试计算H(XY)
我们将联合熵概念推广到任意多离散型随机变量上。 定义1.2 一组随机变量X1,X2,?,XN的联合熵定义为
?p(xy)I(xy)??p(xy)logx,yx,y1 p(xy)H(X1X2?XN)?
x1,x2,?,xN?p(x1x2?xN)I(x1x2?xN)
1
注:为了简化记号,我们有时把X1X2?XN记为XN,把x1x2?xN记为xN。 物理意义:
(1)H(X1X2?XN)是这一组随机变量平均每一批取值
{X1?x1,X2?x2,?XN?xN}
所传递的信息量。
(2)若N-维随机变量X1X2?XN表示某信源产生的任意一条长度为N的消息,则
H(X1X2?XN)是平均每条长度为N的消息的信息量。因此,若该信源产生一个长度为N
的消息,则在不知道其它条件的情况下,对该消息所含信息量的最优估计为N-维信息熵
H(X1X2?XN)。
联合熵的性质:
联合熵熵函数的一种特殊形式,所以熵函数的任何数学性质都适用于联合熵,包括:非负性、可加性、严格上凸性和最大离散熵原理,等等。
当然,联合熵还有自己的特殊性质。
定理1.4(联合熵的独立界)H(X1X2?XN)?H(X1)?H(X2)???H(XN) 其中等号成立的充要条件是所有随机变量相互独立。
证明:这里仅证明H(XY)?H(X)?H(Y),一般情形可类似证明。 设对于XY的联合分布为p(xy),X和Y的概率分布简记为p(x),p(y)。 由于
p?x???p?x,y?, p?y???p?x,y?
yx我们有
p?x?p(y) 左-右=?p?xy?log
p(xy)x,y注意,p(x)p(y)构成一个概率分布。应用信息不等式可得
?p?xy?logx,yp?x?p(y)?0
p(xy)其中等号成立的充要条件是p(xy)?p(x)p(y),即X与Y相互独立。 证毕
2
2. 条件熵
条件自信息:I(y|x)?log1
p(y|x)对于任何取值x,Y|X?x是一个带条件的随机变量,其信息熵为
H(Y|X?x)???p(y|x)logp(y|x)
y再对所有x求熵的平均值可得如下条件熵:
定义2.1 设X,Y是两个离散型随机变量,联合分布为p(xy)。X相对于Y的条件熵H(X|Y) 定义为条件自信息I(X|Y)的期望,即
H(X|Y)??p(xy)I(x|y)
x,y物理意义:H(X|Y)表示在已知Y取值的前提下,X取值的不确定性,亦即X的每个取值平均所提供的与Y无关的信息量。
定理2.2(条件熵非负性)对于任何离散型随机变量X与Y,都有H(Y|X) ≥0,其中等号成立当且仅当Y是X的函数,即X的取值可确定Y的取值。 证明 根据定义
H(Y|X)???p(xy)logp(y|x)?0x,y
由于上述加式中各加项都≤0,所以该加式=0的充要条件是各加项=0,即对于任何x和y,p(y|x)=1或者p(y|x)=0,亦即对于任何x,P(Y|x)是退化分布。这表明当X的取值确定时,Y的取值随即确定,即Y是X的函数。 证毕 定理2.3(熵的链法则)对于随机变量序列X1,X2,…和任何N≥1
H(X1?XN)?H(X1) ? H(X2|X1) ?? ? H(XN|X1?XN?1) 简记为
H(X)?H1 ? H2????HN 其中H1=H(X1),H2=H( X2|X1),…,HN=H(XN|X1X2 …XN-1)。
N3
证明:首先根据定义直接可得
H(XY)= H(X)+H(Y|X)
应用上述等式,对N用归纳法可证明熵的链法则。细节略。 证毕 意义:将多个随机变量的联合熵转化为这些随机变量的条件熵之和,可简化计算。 注:链法则与熵的可加性是等价的。 思考:
下列不等式是否成立,其中各等号成立的充要条件是什么?
H(X1)?H(X1X2)?H(X1X2X3)
这个性质说明什么?请读者尝试命名该性质。
定理2.4(条件熵递减性)对于任何随机变量X和Y,有
H(Y|X)≤ H(Y)
其中等号成立的充要条件是Y与X相互独立。 证明一:根据链法则,
H(XY)=H(X)+H(Y|X)
再根据联合熵的独立界定理,立刻可得
H(Y|X)≤ H(Y)
其中等号成立的充要条件是X与Y统计独立。 证毕 在条件熵中,条件越少,熵值越大。相反,条件越多,熵值越小。这可理解为,我们知道的越多,则事物的不确定性越小。
证明二:应用Jessen不等式证明。 证毕
4
3. 计算公式
令X,Y为离散的随机变量。 公式1. H(Y|X)?H(XY)?H(X) 公式2. H(Y|X)?P(X)H(P(Y|X))
其中P(X)是X的概率分布,为行向量,P(Y|X)是X到Y的条件概率矩阵,H(P(Y|X))是条件概率矩阵中各个行分布P(Y|x)的熵H(Y|x)所组成的列向量。 证明:
H(Y|X)??pxy()lpogyx(|)x,y??p(x)p(yx|)lpogyx(|)x,y ??p(x)?p(yx|)lpogyx(xy
|)??p(x)HY(x|)x?P(X)HP(Y(X|))例3.1 设P(X)?(0.4,0.6)且
P(Y|X)???0.960.04??0.040.96??
则
H(Y|X)?P(X)H(P(Y|X))?(0.4,0.6)H(??0.960.04??0.040.96??)?(0.4,0.6)??H(0.96,0.04)?
?H(0.04,0.96)???H(0.96,0.04)记号:以后对于任何N,我们将N维随机向量X1,X2,…XN简记为XN。
5
证毕
正在阅读:
第6讲 联合熵与条件熵06-16
经期吃什么好 8款饮品女人经期补气血04-12
关于春节习俗的调查报告09-28
埃及介绍英文版01-02
英语词汇词根大全06-03
深圳市装饰工程定额(2003)计算规范11-22
风马什么意思?风马是指什么?02-16
河南东之杰店铺分级管理制度08-09
- 多层物业服务方案
- (审判实务)习惯法与少数民族地区民间纠纷解决问题(孙 潋)
- 人教版新课标六年级下册语文全册教案
- 词语打卡
- photoshop实习报告
- 钢结构设计原理综合测试2
- 2014年期末练习题
- 高中数学中的逆向思维解题方法探讨
- 名师原创 全国通用2014-2015学年高二寒假作业 政治(一)Word版
- 北航《建筑结构检测鉴定与加固》在线作业三
- XX县卫生监督所工程建设项目可行性研究报告
- 小学四年级观察作文经典评语
- 浅谈110KV变电站电气一次设计-程泉焱(1)
- 安全员考试题库
- 国家电网公司变电运维管理规定(试行)
- 义务教育课程标准稿征求意见提纲
- 教学秘书面试技巧
- 钢结构工程施工组织设计
- 水利工程概论论文
- 09届九年级数学第四次模拟试卷
- 条件
- 联合
- 法律英语常用词汇大全
- 中队名称及班主任寄语
- 第四届全国中小学“教学中的互联网搜索”优秀教学案例评选(陈欢
- 新疆公务员题
- Win7密钥+office2007密钥 - 图文
- 九年级上册思想品德人教版达标检测
- 15年道德讲堂活动总结
- 2013年普通高等学校招生全国统一考试新课标全国模拟卷2
- 人力资源管理工具书 - 图文
- 痰瘀互结证的辨治体会 金妙文
- 2016届高考生物(全国通用)五年高考真题:第八单元生物与环境 专
- 2013台湾省驾校考试科目一考试技巧、答题原则
- 2019高考地理二轮复习 第一部分 专题一 地理主体要素 专题强化练
- 八年级下册语文期末复习提纲
- 相关方环境、职业健康安全管控标准
- 各年龄段,生日祝酒词
- 何首乌黑豆制前后蒽醌类含量变化研究
- 排球竞赛规则2005
- 历史必修一高考复习资料 - 石河子第二中学廖子轩
- 模拟电子技术实验与课程设计 - 图文