深入浅出统计学-15 相关与回归

15 相关与回归

数据类型

  • 单变量数据
    • 考虑的是一个单一变量的频数或概率,例如,单变量数据可以描述赌场收益或是统计邦新娘的体重,在这两种情况下,所描述的对象各只有一种。
  • 二变量数据
    • 对于每一个观察结果,二变量数据给出两个变量数值——而不是一个,例如,对于同一场音乐会,或者说对于同一个观察结果,二变量数据会同时给出预计请天数和音乐会听众人数。
    • 散点图显示二变量数据的模式

相关性:相关性是变量之间的数学关系,但并不意味着一个变量一定与另一个变量相关。线性相关即两变量之间为直线的相关关系。

  • 正线性相关即x的低端值对应于y的低端值,x的高端值对应于y的高端值
  • 负线性相关即x的低端值对应于y的高端值,x的高端值对应于y的低端值。
  • 如果x和y的数值分布表现出随机模式,则它们不存在相关性

最佳拟合线:与数据点拟合程度最高的线称为最佳拟合线

  • 线性回归是一种求最佳拟合线y=ax+b的数学方法

  • 误差平方和SSE的计算式为:
    image-20210120191338331.png
  • 直线y=ax+b的斜率b的计算式为:

    *
    image-20210120191635615.png
    • a的计算式为:

      *
      image-20210120191749554.png
  • 相关系数r是介于-1和1之间的一个数,描述的是数据与最佳拟合线的偏离距离。

    • 如果r=-1,则为完全负线性相关;
    • 如果r=1,则为完全正线性相关;
    • 如果r=0,则不存在相关性。
    • r的计算式为:

      *
      image-20210120192139608.png
      • image-20210120192351863.png
      • image-20210120192431607.png
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容