1. 基本概念
假设有两个一维数组X和Y,抽样得到了n对样本值(各有n个观测值):
样本均值和标准差:
皮尔森(积矩)相关系数(Pearson product-moment correlation coefficient):
皮尔逊相关系数也就是通常说的(线性)相关系数,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。,一个介于 1 和 -1 之间的值,其中,1 表示变量完全正相关, 0 表示线性无关,-1 表示完全负相关。绝对值越大表示线性关系越强,但它不能度量线性关系的斜率以及非线性关系,当然也不能度量非函数关系。
斯皮尔曼相关系数(Spearman’s correlation coefficient for ranked data)
主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级变量性质具有线性关系的资料。由英国心理学家、统计学家斯皮尔曼根据积差相关的概念推导而来,一些人把斯皮尔曼等级相关看做积差相关的特殊形式。若Y是X的严格单调递减(增)函数,则斯皮尔曼秩相关数是-1 (+1).
把X中的n个数从小到大排列,若Xi排在了第Ai个位置,则Xi的秩次为Ai,从而可得X所对应的秩次向量A,同理可得Y的所对应的秩次向量B:
A和B之间的皮尔逊相关数就是X与Y之间的斯皮尔曼相关系数
可决系数(coefficient of determination):
可决系数,是指回归平方和(SSR)在总变差(SST)中所占的比重。可决系数可以作为综合度量回归模型对样本观测值拟合优度的度量指标。
设Yi 是观测值,fi 是线性回归对应的预测值( fi(X1, X2, ......, Xn) ),则,
R2是拟合优度(Goodness of Fit)的一个统计量, 是指回归直线对观测值的拟合程度。R2越接近1,说明回归直线对观测值的拟合程度越好(在总变差中,由模型作出了解释的部分占的比重越大);反之,R2越接近0,说明回归直线对观测值的拟合程度越差(在总变差中,由模型作出了解释的部分占的比重越小)。
自信息量(self-information, information content, Quantities of information, amount of information):
假设X和Y中都只有s个不同的值,即都只有s个基本事件,从而可以根据样本来求出这s个基本事件的频率,用来当作概率。
这里以2为低,单位是bit;若以10为低,单位是Hartley;若以e为低,单位是nat。 信息量只表示随机性的减少程度,xi发生的概率越小, 当xi真的发生以后,提供的信息量就越大。 从而有:
从而,必然事件发生以后,信息量为0. 不可能事件发生以后,信息量为无穷大。
最大信息系数
用于衡量两个变量X和Y的线性或非线性的强度。
from minepy import MINE
import numpy as np
np.random.seed(0)
size = 1000
X = np.random.uniform(0, 2, (size, 5))
Y = X[:, 1] + X[:, 2] ** 2 + np.sin(np.pi * 0.5 * X[:, 3]) + \
np.log(X[:, 4]) + np.random.normal(0, 1)
X[:, 0] = X[:, 1] + np.random.normal(0, 1)
mine = MINE()
mic_scores = []
for i in range(X.shape[1]):
mine.compute_score(X[:, i], Y)
m = mine.mic()
mic_scores.append(m)
print(mic_scores)