最大信息系数(Maximum Information Coefficient,MIC)和互信息(Mutual Information,MI)都是衡量两个变量之间相关性的方法,但它们之间存在一些区别。
互信息是一种用于衡量两个随机变量之间相互依赖程度的方法。它的定义如下:
互信息:对于两个离散型随机变量 和
,它们的互信息
定义为:
其中, 表示
且
的联合概率分布,
和
分别表示
和
的边缘概率分布。
互信息的取值范围为 ,取值越大表示两个变量之间相关性越强。
而最大信息系数是一种用于衡量两个变量之间非线性相关性的方法,它的定义如下:
最大信息系数:对于两个变量 和
,它们的最大信息系数
定义为:
其中, 和
是
和
到
区间的单调函数,
和
分别是
和
的可能取值个数。
最大信息系数的取值范围为 ,取值越大表示两个变量之间相关性越强。
最大信息系数和互信息之间的关系是:最大信息系数是互信息的一种估计方法。具体来说,最大信息系数可以看作是互信息在一定条件下的估计值,其中的条件是 和
之间的关系是单调的。因此,最大信息系数的取值范围比互信息小,但它对非线性关系的检测能力更强。
最大信息系数(Maximum Information Coefficient, MIC)是一种用于衡量两个变量之间相关性的非参数统计方法,由 Reshef 等人于 2011 年提出。
MIC 的基本思想是对于任意一对变量 和
,通过分别对
和
进行
-NN(k-Nearest Neighbors)估计,来评估它们之间的关联程度。具体地,MIC 首先将
和
按照值的大小进行排序,然后用
-NN 方法来估计
和
之间的条件分布
和
,最后计算
和
之间的最大信息系数:
其中, 和
分别是
和
到
区间的映射函数,
是一个权重函数,它在
和
距离越近的时候取得更大的值,可以用于调整那些较远的点对于 MIC 的影响。这个式子可以理解为在所有可能的
和
中选择一个最优的组合,使得它们的点乘积之和除以归一化系数最大。
MIC 的取值范围是 ,其中
表示两个变量之间没有相关性,
表示两个变量之间具有完全的相关性。与 Pearson 相关系数等传统方法相比,MIC 能够处理更加复杂的非线性关系,并且在样本量较小、特征数量较多等情况下具有较好的鲁棒性。不过,与大部分非参数方法一样,MIC 的计算复杂度较高,通常需要进行一定的优化才能适用于大规模数据集。