相关分析
是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。
相关分析研究现象之间是否相关、相关的方向和密切程度,一般不区别自变量或因变量。
主要有双变量相关分析、偏相关、距离相关。
双变量相关分析是相关分析中最常使用的分析过程,主要用于分析两个变量之间的线性相关分析,而这种分析方式中又可以选:用Pearson积差相关、Spearman等级相关、Kendall的tau-b等级相关。
(注意:pearson极差相关要求是成对数据,每队数据之间要求独立,样本容量大于等于30,两个变量的所属总体要呈正态分布,两个变量都是由测量所得到的连续型数据,两个变量的相关要求是线性相关,并且要排除公变因数的影响)
(Kendall的tau-b等级相关是一种对两列等级变量的的关系程度的测量,结果为交错系数)(Spearman等级相关只有两个变量,两个变量都是顺序变量,或者一个是顺序变量,另一个是连续变量)
因为spearman等级相关不受样本数量多少以及变量分布形态,所以当数据不符合pearson积差相关的要求时,可以用spearman等级相关,但是由于spearman等级相关在处理的时候会把连续性数据转化成等级数据,从而导致数据的遗漏缺失,这就会造成spearman不如pearson准确。
(要先做一个散点图看一下是否线性相关,然后根据数据选不同的分析方式)
当数据文件包括多个变量时,直接对两个变量进行相关分析往往不能真实反映二者之间的关系,此时就需要用到偏相关分析,从中剔除其他变量的线性影响。
距离相关分析是对观测变量之间差异度或相似程度进行的测量,其中距离需要弄清楚,距离分析是对观测量之间相似或不相似程度的一种测度,是计算一对观测量之间的广义距离。这些相似性或距离测度可以用于其他分析过程,例如因子分析、聚类分析或多维定标分析,有助于分析复杂的数据集。(未深入了解)