1. 相关性检验
得出相关系数我们并不一定能得出数据之间的相关水平,这时候我们会进行相关性检验来进行量化。
置信区间:confidence interval,是指由由样本统计量所构成的总体参数的估计区间。在统计学中,一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度。简单来说就是只有概率还不行,还得知道概率发生的范围。例如,如果在一次大选中某人的支持率为55%,而置信水平0.95以上的置信区间是(50%,60%),那么他的真实支持率有百分之九十五的机率,落在百分之五十和百分之六十之间,因此他的真实支持率不足一半的可能性小于百分之5。
1.1 单组检验(cor.test函数)
cor.test函数每次只能检测一组变量。它有四个重要的参数,x和y是需要检测的相关性的变量,alternative参数指明是进行两边检验(two.sided)或正相关检验(greater)或负相关检验(less)。method参数选择算法(Pearson、Spearman、Kendall)
cor.test(state.x77[,3],state.x77[,5]) #检验state.x77数据集的第三列和第五列的相关性
1.2 多组变量检验(corr.test函数)
psych包中的corr.test可以一次性检验多组变量,可以递归计算整个数据集。
library(psych)#载入包
corr.test(state.x77)#计算各列之间的相关系数和相关性检验
该函数不仅计算了相关系数,而且计算了相关性检验的值
1.3 偏相关检验(pcor.test函数)
偏相关
library(ggm)
x<-pcor(c(1,5,2,3,6),cov(state.x77))
pcor.test(x,3,50)
1.4 分组数据的相关性检验(t.test函数)
1.4.1 两组数据
t检验适用于样本含量较小,总体方差未知的正态分布数据
UScrime数据集是美国七个州的刑罚制度对犯罪率影响的数据集。
t检验使用t.test()函数,格式为y~x,其中y是数值型变量,x是二分型变量。波浪线后面是分组变量,南方和北方分成两组,做了t检验。
library(MASS)#加载数据集
UScrime
t.test(Prob~So,data=UScrime)#通过So列进行分组,对Prob列数据进行t检验
1.4.2 多于两组数据
如果想在多余两个组的数据中进行比较,数据符合正态分布我们就用方差分析,如果不符合正态分布则用非参数的方法。在相关性检验中,我们可以用参数方法和非参数 方法。统计分析方法包括参数检验和非参数检验,
- 参数检验:参数检验,Parametric tests,是在总体分布形式已知的情况下,对总体分布的参数如均值、方差等进行推断的方法。也就是数据分布已知,比如满足正态分布。
- 非参数检验:称为Nonparametric tests,在总体方差未知或知道甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。