数据分析之相关分析

描述性分析只能分析数据呈现出来的基本特征,不能挖掘变量之间深层次的关系,无法为后期模型的建立及预测做准备。这个时候就需要掌握推断性分析方法,第一个方法就是相关分析。

哲学告诉我们,世界是一个普遍联系的有机整体,现象之间客观上存在着某种有机联系,一种现象的发展变化必然受与之相联系的其他现象发展变化的制约与影响。在统计学上,这种依存关系可以分成相关关系和回归函数关系两大类。

文/黄成甲

相关分析

(1)相关关系

相关关系是指现象之间存在着非严格的、不确定的依存关系。这种依存关系的特点是:某一现象在数量上发生变化会影响到另一现象数量上的变化,而且这种变化在数量上具有一定的随机性。即当给定某一现象一个数值时,另一个现象会有若干个数值与之对应,并且总是遵循一定的规律,围绕这些数值的平均数上下波动,其原因是影响现象发生变化的因素不止一个。例如,影响销售的因素除了推广费用外,还有产品质量、价格、渠道等因素。

(2)回归函数关系

回归函数关系是指现象之间存在着依存关系。在这种依存关系中,对于某一变量的每一个数值,都有另一变量值与之相对应,并且这种依存关系可用一个数学表达式反映出来。例如,在一定条件下,身高和体重存在着依存关系。

相关分析可分为线性相关和非线性相关,线性相关也称为直线相关,非线性相关从某种意义来讲也就是曲线相关。

线性相关是最常用的一种,即当一个连续变量发生变动时,另一个连续变量相应地呈现线性关系变动,用皮尔逊(Pearson)相关系数R来度量。

皮尔逊相关系数R就是反映连续变量之间线性相关强度的一个度量指标,它的取值范围限于【-1,1】。R的正负号可以反映相关的方向,当R>0时表示线性正相关,当R<0时表示线性负相关。R的大小可以反映相关的程度,R=0表示两个变量之间不存在线性关系。通常相关系数的取值与相关程度如图:

相关系数与相关程度对应表

相关分析一般通过散点图来研究,如果变量在二维坐标中构成的数据点分布在一条直线的周围,那么久说明变量间存在线性相关关系。

散点图

相关关系不等于因果关系,相关性表示两个变量同时变化,而因果关系是一个变量导致另一个变量变化。例如,一项统计研究显示游泳时溺水人数越高,冰淇淋销售就越多,也就是游泳溺水人数和冰淇淋销售量之间呈线性正相关。由此可以得出结论:吃冰淇淋就会增加游泳溺水的风险吗?显然,这两个事件都受夏天到了气温升高所影响。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 相关关系包括线性相关和非线性相关。线性相关也叫直线相关,非线性相关也叫曲线相关。相关关系主要采用皮尔逊(Pears...
    雪莉1709阅读 3,783评论 0 1
  • 转自:https://blog.csdn.net/anxixiaomu/article/details/69075...
    马尔代夫Maldives阅读 4,340评论 0 7
  • 一、描述统计 描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关...
    微秋凌白阅读 5,461评论 0 3
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 12,217评论 16 22
  • 创业是很多人的梦想,多少人为了理想和不甘选择了创业来实现自我价值,我就是其中一个。 创业后,我由女人变成了超人,什...
    亦宝宝阅读 5,864评论 4 1

友情链接更多精彩内容