最大信息系数详解

1. 基本概念

假设有两个一维数组X和Y,抽样得到了n对样本值(各有n个观测值):

样本均值和标准差:

皮尔森(积矩)相关系数(Pearson product-moment correlation coefficient):


皮尔逊相关系数也就是通常说的(线性)相关系数,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。,一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示线性无关,-1 表示完全负相关。绝对值越大表示线性关系越强,但它不能度量线性关系的斜率以及非线性关系,当然也不能度量非函数关系。

斯皮尔曼相关系数(Spearman’s correlation coefficient for ranked data)

主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。若Y是X的严格单调递减(增)函数,则斯皮尔曼秩相关数是-1 (+1).

把X中的n个数从小到大排列,若Xi排在了第Ai个位置,则Xi的秩次为Ai,从而可得X所对应的秩次向量A,同理可得Y的所对应的秩次向量B:



A和B之间的皮尔逊相关数就是X与Y之间的斯皮尔曼相关系数

可决系数(coefficient of determination):

可决系数,是指回归平方和(SSR)在总变差(SST)中所占的比重。可决系数可以作为综合度量回归模型对样本观测值拟合优度的度量指标。

设Yi 是观测值,fi 是线性回归对应的预测值( fi(X1, X2, ......, Xn) ),则,


R2是拟合优度(Goodness of Fit)的一个统计量, 是指回归直线对观测值的拟合程度。R2越接近1,说明回归直线对观测值的拟合程度越好(在总变差中,由模型作出了解释的部分占的比重越大);反之,R2越接近0,说明回归直线对观测值的拟合程度越差(在总变差中,由模型作出了解释的部分占的比重越小)。

自信息量(self-information, information content, Quantities of information, amount of information):

假设X和Y中都只有s个不同的值,即都只有s个基本事件,从而可以根据样本来求出这s个基本事件的频率,用来当作概率。



这里以2为低,单位是bit;若以10为低,单位是Hartley;若以e为低,单位是nat。 信息量只表示随机性的减少程度,xi发生的概率越小, 当xi真的发生以后,提供的信息量就越大。 从而有:



从而,必然事件发生以后,信息量为0. 不可能事件发生以后,信息量为无穷大。

最大信息系数

用于衡量两个变量X和Y的线性或非线性的强度。

from minepy import MINE
import numpy as np

np.random.seed(0)
size = 1000
X = np.random.uniform(0, 2, (size, 5))
Y = X[:, 1] + X[:, 2] ** 2 + np.sin(np.pi * 0.5 * X[:, 3]) + \
    np.log(X[:, 4]) + np.random.normal(0, 1)
X[:, 0] = X[:, 1] + np.random.normal(0, 1)

mine = MINE()
mic_scores = []
for i in range(X.shape[1]):
    mine.compute_score(X[:, i], Y)
    m = mine.mic()
    mic_scores.append(m)

print(mic_scores)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容