新学期选修密码学,第一节课记了这些笔记,于是退课。

离散随机变量

对于给定的有限集合 ,如果变量 满足 ,其中 是映射 ,且满足 ,那么称 上的一个服从概率分布(distribution) 离散随机变量(random variable)

对概率分布 ,可以定义其熵(entropy),这也被称为随机变量 的熵

根据函数 的凸性,可知当概率分布中各项的概率相等时,即 ,熵达到最大值 。这样的分布称为均匀分布(uniform distribution)

对于多个离散随机变量,可以定义联合分布(joint distribution)。如果 满足 ,那么称 服从联合分布 ,记作

同样地,可以定义多个随机变量的联合熵(joint entropy):若,定义

给定联合分布后,可以重新计算每个变量单独的分布,称为这个变量的边缘分布(marginal distribution)

如果联合分布可以表示为边缘分布的乘积,称这两个随机变量独立(independent)

当两个变量 独立时,计算得

条件熵

通过条件概率,可以定义一个随机变量 关于随机事件 条件熵(conditional entropy)

随机变量 相对于随机变量 的条件熵等于 关于 的某一取值的条件熵在 的边缘分布下的期望:

对上式变形,可以得出条件熵另外的两种表示:

互信息

**互信息(mutual information)**用于衡量两个随机变量的相关性。其定义为以一个随机变量为条件后,熵的减少值。

代入 ,得到

从这里可以看出互信息是对称的。因此有

进一步变形,可以得到

于是可以证明互信息的非负性:

由此可知

当随机变量 独立时,有 ,可知

反过来,当互信息 时,从上面不等式的取等条件可以看出, 不依赖于 的选取,进而可知 独立。

当随机变量 完全依赖于 时,也即 ,有

因此,

多元互信息

对于多于两个的随机变量 ,记其概率分布为 ,以及每个变量的边缘分布 ,于是可以定义多元联合熵

以及关于随机事件 的多元条件熵

考虑三个随机变量 的条件熵,定义

接下来定义关于随机事件 的条件互信息

以及关于随机变量的条件互信息

继续定义多元互信息

特别地,有三元互信息

仿照二元互信息,可知

于是

马尔可夫不等式

对实数域上的离散随机变量 ,记期望 ,当 恒非负时,有马尔可夫不等式(Markov inequality)

如果 是另一个随机变量 到其均值的距离的平方,则有切比雪夫不等式(Chebyshev inequality)

切比雪夫不等式描述了方差与随机变量偏离均值的程度之间的关系。

对于一般的多个随机变量 ,记 ,代入切比雪夫不等式有

是同分布的,记均值 ,方差 ,则

,则

这就是弱大数定律(weak law of large numbers)

切诺夫界

如果对 有更多假设,可以给出比弱大数定律更强的估计。

为独立泊松实验,即 ,记 ,那么

,则

同理,有

此二式称为切诺夫界(Chernoff bound)