15 相关与回归
数据类型:
-
单变量数据:
- 考虑的是一个单一变量的频数或概率,例如,单变量数据可以描述赌场收益或是统计邦新娘的体重,在这两种情况下,所描述的对象各只有一种。
-
二变量数据:
- 对于每一个观察结果,二变量数据给出两个变量数值——而不是一个,例如,对于同一场音乐会,或者说对于同一个观察结果,二变量数据会同时给出预计请天数和音乐会听众人数。
- 散点图显示二变量数据的模式
相关性:相关性是变量之间的数学关系,但并不意味着一个变量一定与另一个变量相关。线性相关即两变量之间为直线的相关关系。
- 正线性相关即x的低端值对应于y的低端值,x的高端值对应于y的高端值
- 负线性相关即x的低端值对应于y的高端值,x的高端值对应于y的低端值。
- 如果x和y的数值分布表现出随机模式,则它们不存在相关性
最佳拟合线:与数据点拟合程度最高的线称为最佳拟合线
线性回归是一种求最佳拟合线y=ax+b的数学方法
-
误差平方和SSE的计算式为:
-
直线y=ax+b的斜率b的计算式为:
*
-
a的计算式为:
*
-
-
相关系数r是介于-1和1之间的一个数,描述的是数据与最佳拟合线的偏离距离。
- 如果r=-1,则为完全负线性相关;
- 如果r=1,则为完全正线性相关;
- 如果r=0,则不存在相关性。
-
r的计算式为:
*