两变量间的关系有两类:确定性关系和非确定关系。
前者指两变量间的关系是函数关系,可以精确测量。后者指两变量在宏观上存在关系,但未精确到可以用函数关系来表达。
相关分析时研究观察指标间相关关系的统计方法,按数据类型的不同分为:定量资料的相关、定性资料的相关、等级资料的相关。
这一篇先介绍定量资料的相关。
1. 样本相关系数的计算
当一个变量增大 ,另一个变量也随之增大或随之减少,可以说两变量存在相关关系。相关关系分为线性的和非线性的,我们常说的相关是指线性相关。
相关系数,是表达两变量间线性相关程度和方向的一个统计指标,也称Pearson相关系数。样本相关系数用符号r表示,总体相关系数用ρ表示。样本相关系数计算如下:
相关系数取值范围在-1到1之间,小于0为负相关,大于0为正相关,等于0为零相关。相关系数的绝对值越大,表示两变量间的相关程度越密切。
2. 相关系数的假设检验
样本相关系数r是总体相关系数ρ的估计值。作为样本统计量,样本相关系数会有抽样误差。即使从相关系数ρ=0的总体中随机抽样,样本相关系数也往往不等于0,所以对样本相关系数r进行假设检验。
相关系数的假设检验用t检验:
3. Fisher z变换
当相关系数假设检验,拒绝H0,接受H1时,可以认为样本来自于总体的相关系数ρ不等0。从这个总体中进行抽样,样本相关系数的抽样分布是偏态的,不方便进行比较。
R.A.Fisher 提出的z变换解决了这个问题,对相关系数r做如下变换:
变换值z近似服从正态分布:
基于此,我们可以计算出相关系数的可信区间,以及两相关系数的比较。
两相关系数的比较就转化成,对z值的比较,具体的公式如下:
两相关系数的比较,在临床试验中较为少见,SAS中没有直接输出比较结果的选项,需要自己编程实现对应的算法,获取p值。
4 SAS编程实现
计算相关系数使用的是Corr过程步,以下举例来源于SAS官方文档 (Example 2.4 Applications of Fisher's z Transformation)。
演示数据为2元正态分布的模拟数据(X, Y),共有3个组别。第一组,样本量为150,相关系数为0.3;第2组,样本量为150,相关系数为0.25;第3组,样本量为100,相关系数为0.3。
data Sim (drop=i);
do i=1 to 400;
X = rannor(135791);
Batch = 1 + (i>150) + (i>300);
if Batch = 1 then Y = 0.3*X + 0.9*rannor(246791);
if Batch = 2 then Y = 0.25*X + sqrt(.8375)*rannor(246791);
if Batch = 3 then Y = 0.3*X + 0.9*rannor(246791);
output;
end;
run;
4.1 检验总体相关系数是否等于一个给定值 (rho0)
检验总体相关系数是否等于0,有两种方法:一种是t检验,一种是Fisher z变换后的正态性检验。
1) t检验
使用Corr过程步的Person选项,可以获取对应比较的p值,日常工作中,需要将输出到数据集。
title 'Analysis for Batch 1';
ods output PearsonCorr = pcorr;
proc corr data=Sim (where=(Batch=1)) pearson;
var X;
with Y;
run;
ods output close;
输出结果如下:
这里的选项也可以使用 var X Y;
,这个选项会输出XY、YX的双向结果:
2) Fisher z 变换
通过Fisher z 变换,转化为正态分布进行处理,检验相关系数是否等于0:
title 'Analysis for Batch 1';
proc corr data=Sim (where=(Batch=1)) fisher(rho0 = 0);
var X Y;
run;
输出结果如下:
原数据Batch 1是按相关系数0.3进行模拟的,显然不等于0。两种检验方法得出的p值都<0.05,拒绝了总体相关系数ρ=0的假设。虽然两种方法的p值有细微差异(0.0001),但不影响结果。
第一种方法只能检验总体相关系是否等于0,因为只有在ρ=0的情况下,样本相关系数的抽样分布才服从t分布。第2种方法可以适用于总体相关系数其他值的检验,同时也会输出相关系数的95%的可信区间。
临床试验中,一般计算相关系数的要求比较简单,通常只要r 和 p值,使用的方法是t检验。当然,这具体要看试验设计和统计的要求。
4.2 检验两总体相关系数是否相等
如前面介绍,这种情况只能进行Fisher z变换后进行比较,同时需要进行手动编程实现对应的算法。代码实例进行比较Batch1 和 Batch3的相关系数是否相等。
首先,计算2组的相关系数,以及分别进行假设检验:
ods output FisherPearsonCorr=SimCorr;
title 'Testing Equality of Population Correlations';
proc corr data=Sim (where=(Batch=1 or Batch=2)) fisher;
var X Y;
by Batch;
run;
ods output close;
proc print data=SimCorr;
run;
输出结果如下:
第二,计算z统计量以及双侧检验的P值。
data SimTest (drop=Batch);
merge SimCorr (where=(Batch=1) keep=Nobs ZVal Batch
rename=(Nobs=n1 ZVal=z1))
SimCorr (where=(Batch=2) keep=Nobs ZVal Batch
rename=(Nobs=n2 ZVal=z2));
variance = 1/(n1-3) + 1/(n2-3);
z = (z1 - z2) / sqrt( variance );
pval = probnorm(z);
if (pval > 0.5) then pval = 1 - pval;
pval = 2*pval;
run;
proc print data=SimTest noobs;
run;
结果如下:
p = 0.27954 > 0.05,在α=0.05的水准下,所以没有证据拒绝零假设,不能认为两组的相关系数不同。这结论与起始的数据模拟条件是一致的。
代码中如要注意的是,pval = probnorm(z);
,计算的分布函数值,即P{x<z},下图中阴影部分的面积。关于分布函数相关信息问题,可以参考医学统计:随机变量的概率分布、概率计算的SAS实现。
感谢阅读, 欢迎关注!
若有疑问,欢迎评论交流!