皮尔森相关系数
在所有相关系数的计算方法里面,最常见的就是皮尔森相关。皮尔森相关系数也称皮尔森积差相关系数,是一种线性相关系数。皮尔森相关系数是用来反映两个变量线性相关程度的统计量。相关系数用r表示,其中n为样本量,Xi、Yi与X、Y分别为两个变量的观测值和均值。r描述的是两个变量间线性相关强弱的程度。r的绝对值越大表明相关性越强。SX SY分别为样本标准差。
假设样本可以记为(Xi ,Yi),则样本Pearson相关系数为:
公式是抽象的,我们利用几组值就可以更好理解相关系数的意义。从皮尔森相关系数定义来看,如果两个基因的表达量呈线性关系(数学上,线性相关指的是直线相关,指数、幂函数、正弦函数等曲线相关不属于线性相关),那么两个基因表达量的就有显著的皮尔森相关系性。下面用几组模拟数值来测试一下:
斯皮尔曼等级相关
斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data)主要用于解决称名数据和顺序数据相关的问题。适用于两列变量,而且具有等级线性关系的资料。
公式长这样~
n为等级个数,d为二列成对变量的等级差数
简单点说,斯皮尔曼相关就是无论两个变量的数据如何变化,符合什么样的分布,我们只关心每个数值在变量内的排列顺序。如果两个变量的对应值,在各组内的排序顺位是相同或类似的,则具有显著的相关性。
|r|的取值与相关程度
相关系数r的取值范围是-1≤r ≤ 1,一般取小数点后两位。 r的正负号表明两变量间变化的方向;
|r|表明两变量间相关的程度,
r>0表示正相关,
r<0表示负相关,
r=0表示零相关。
|r|越接近于1,表明两变量相关程度越高,它们之间的关系越密切。但是由样本算得的相关系数是否有统计学意义,还应作假设检验。
适用范围与计算方法选择
Spearman 和Pearson相关系数在算法上完全相同. 只是Pearson相关系数是用原来的数值计算积差相关系数, 而Spearman是用原来数值的秩次计算积差相关系数。
1.Pearson相关系数适用条件为两个变量间有线性关系、变量是连续变量、变量均符合正态分布。
2.若上述有条件不满足则考虑用Spearman相关系数
3.对于同一量纲数据建议Pearson,例如mRNA表达量数据,计算不同mRNA表达量的相关系数;对于不同量纲数据,可考虑Spearman相关系数,例如mRNA表达量与某表型数据(株高、产果量、次生化合物含量等)。
相关系数的缺点与注意事项
需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。
因此高通量测序项目,一般建议10个以上样本才计算相关系数,这样其可靠性更高。
参考自:
http://www.omicshare.com/forum/thread-529-1-1.html
http://www.omicshare.com/forum/thread-556-1-1.html