互信息公式及概述

在概率论和信息论中，两个随机变量的互信息（Mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息(Mutual Information)是度量两个事件集合之间的相关性(mutual dependence)。互信息最常用的单位是bit。

互信息的定义

正式地，两个离散随机变量 X 和 Y 的互信息可以定义为：

其中 p(x,y) 是 X 和 Y 的联合概率分布函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率分布函数。

在连续随机变量的情形下，求和被替换成了二重定积分：

其中 p(x,y) 当前是 X 和 Y 的联合概率密度函数，而p(x)和p(y)分别是 X 和 Y 的边缘概率密度函数。

互信息量I(xi;yj)在联合概率空间P(XY)中的统计平均值。平均互信息I(X;Y)克服了互信息量I(xi;yj)的随机性,成为一个确定的量。如果对数以 2 为基底，互信息的单位是bit。

直观上，互信息度量 X 和 Y 共享的信息：它度量知道这两个变量其中一个，对另一个不确定度减少的程度。例如，如果 X 和 Y 相互独立，则知道 X 不对 Y 提供任何信息，反之亦然，所以它们的互信息为零。在另一个极端，如果 X 是 Y 的一个确定性函数，且 Y 也是 X 的一个确定性函数，那么传递的所有信息被 X 和 Y 共享：知道 X 决定 Y 的值，反之亦然。因此，在此情形互信息与 Y（或 X）单独包含的不确定度相同，称作 Y（或 X）的熵。而且，这个互信息与 X 的熵和 Y 的熵相同。（这种情形的一个非常特殊的情况是当 X 和 Y 为相同随机变量时。）

互信息是 X 和 Y 联合分布相对于假定 X 和 Y 独立情况下的联合分布之间的内在依赖性。于是互信息以下面方式度量依赖性：I(X; Y) = 0 当且仅当 X 和 Y 为独立随机变量。从一个方向很容易看出：当 X 和 Y 独立时，p(x,y) = p(x) p(y)，因此：

此外，互信息是非负的（即 I(X;Y) ≥ 0; 见下文），而且是对称的（即 I(X;Y) = I(Y;X)）。

与其他量的关系

互信息又可以等价地表示成

其中H(X)和H(Y) 是边缘熵，H(X|Y)和H(Y|X)是条件熵，而H(X,Y)是X和Y的联合熵。注意到这组关系和并集、差集和交集的关系类似，用Venn图表示：

于是，在互信息定义的基础上使用琴生不等式，我们可以证明 I(X;Y) 是非负的，因此H(X)>=H(X|Y)，这里我们给出 I(X;Y) = H(Y) – H(Y|X) 的详细推导:

上面其他性质的证明类似。

直观地说，如果把熵 H(Y) 看作一个随机变量不确定度的量度，那么 H(Y|X) 就是 X 没有涉及到的 Y 的部分的不确定度的量度。这就是“在 X 已知之后 Y 的剩余不确定度的量”，于是第一个等式的右边就可以读作“Y的不确定度，减去在 X 已知之后 Y 的剩余不确定度的量”，此式等价于“移除知道 X 后 Y 的不确定度的量”。这证实了互信息的直观意义为知道其中一个变量提供的另一个的信息量（即不确定度的减少量）。

注意到离散情形 H(X|X) = 0，于是 H(X) = I(X;X)。因此 I(X;X) ≥ I(X;Y)，我们可以制定”一个变量至少包含其他任何变量可以提供的与它有关的信息“的基本原理。

4 评论

神经网络高维互信息计算Python实现（MINE） – 闪念基因 – 个人技术分享

2020-12-19 / 14:38 回复

[…] 互信息公式及概述 […]
zhuzhu

2020-06-11 / 10:04 回复

您好，能发下dlbcl数据集吗？
- xyjisaw
  
  2020-06-11 / 14:40 回复
  
  https://github.com/xyjigsaw/Dataset
空白

2019-06-25 / 21:47 回复

那个matlab 显示
未定义函数或变量 ‘divide_dlbcl’。

出错 Untitled6 (line 2)
[X_train,Y_train,X_test,Y_test] = divide_dlbcl();
这是为什么啊

互信息公式及概述

互信息的定义

与其他量的关系

大模型中的RepE表征工程

大模型也是一种优化器（LLM as Optimizer）

全栈开发与快速部署Demo

学术idea自动发现与生成

自回归语言模型（language model）Python实现

粉丝期待的三体电影宇宙（近四十部电影与电视剧集）

基于历史对比学习的时序知识图谱推理

泰拉瑞亚Terriaria快速部署Linux服务器

iPad生产力指南——编程

DeepScience：学术趋势预测与分析

4 评论

留下评论取消回复

互信息的定义

与其他量的关系

相关文章

4 评论

留下评论取消回复