Linear Regression——线性回归

本文所有内容来源于StatQuest

线性回归分析内容分为三个部分:
1.通过最小二乘法,拟合出一天直线
2.计算R2
3.计算R2的p值

上一节回归概述的内容中,已经简单介绍了如何通过最小二乘法拟合直线。
若不清楚的话,可以点击链接查看相关内容。
所以本节主要讲述R2及其p值计算。

R2计算

先回答一个两个问题,
R2是什么?为什么要平方?
R是相关系数,表示两个变量关系的紧密程度。
用R值比较两组变量关系紧密程度时,不是很方便。
例如很难直接看出R=7代表的相关性,是R=5的2倍,
但是可以直接看出R2=7是R2=5的1.4倍

接下来看看R2是如何计算的。

一元

假设现在我们已经通过最小二乘法拟合出一条直线,表示小鼠体重(weight)和小鼠体型(Size)的关系



image

首先在y轴方向上,计算数据点到均值(黑色实线)的总平方和SS(mean)(蓝色虚线)和方差Var(mean)

均值误差平方和SS(mean)=Σ(data-mean)^2
均值方差Var(mean)=SS(mean)/n


然后计算出数据点到拟合直线的残差平方和和方差

那么

教材所写的R^2=SSR/SST=(SST-SSE)/SST和上面公式的一样的

R2告诉我们小鼠体重weight可以在多少程度上,解释体型size的差异变化。

如果拟合结果类似下图的话,Var(fit)=0,那么我们计算得到R2=100%,即表示小鼠的体型完全可以通过体重解释。
[图片上传失败...(image-d0d94-1556752719637)]
如果拟合结果类似下图的话,Var(fit)=Var(mean),R2=0%,小鼠体重和体型之间完全没有关系。

多元

现在我们希望通过小鼠体重和尾巴长度,来预估小鼠身体长度,
那么我们其实是根据体重和尾巴长度这两个变量预估出一个二维平面

同样的,我们可以根据真实值和预测值之间的残差计算R2

有一点需要说明的是,即使尾巴长度的这个变量对于小鼠体重预测完全没有用,
添加这个变量也不会导致预测结果更差,即SS(fit)变大。
因为在最小二乘法拟合的过程中,导致SS(fit)的变量都会忽略,
那么尾巴长度的系数为0,不会产生实际影响。


所以,即使我们故意添加一些看起来匪夷所思的变量,
例如丢硬币、喜欢的颜色、占星设计,
最终拟合出来的结果也不会更差


个人理解:它这里说的,应该不是通过丢硬币来随机选择样本;
应该还是针对所有样本进行拟合,然后添加硬币、颜色、占星这些乱七八糟的变量
但是下面这块内容就不是很能理解了,没看明白为什么体型小的老鼠频率高了后,SS(fit)会变小

根据上面所说,参数越多,我们获得较大值R2的概率就越大(还是没能理解)。
所以,人们通过对R2除以参数个数来对其进行修正,即修正R2(adjusted R2)。

F值

做完线性回归之后,并且计算出决定系数R2,接下来需要看一下是否具有统计学意义。
对于线性回归而言,是否具有显著性,即求P值,是通过F值计算的。
在这个线性回归过程中


R2表示,小鼠体型方差中,能够被体重解释的部分占总方差的比例
F值表示,小鼠体型方差中,能够被体重解释的部分占未能被体重解释的部分的比例

什么意思呢?解释一下
The variation in mouse size explained by weight 指的是样本点到y轴均值的距离(下图左)减去到回归直线的距离(下图右)的差值
The variation in mouse size not explained by weight 指的是样本点到回归直线的距离(下图右)
Variation in mouse size without takding weight into account 指的是样本点到y轴均值的距离(下图左)

具体计算公式如下图所示


F值的计算公式中分子少了括号吧
F=[(SS(mean)-SS(fit))/(pfit-pmean)]/[SS(fit)/(n-pfit)]

上面的公式中,(pfit-pmean)和(n-pfit)叫做自由度,其中
n是样本格式,
pfit是回归直线的参数个数,如下图



pmean是均值线的参数,如下图

只要最终回归直线公式的因变量只有一个,
例如或者通过体重(单变量)估计体型(因变量),
或者通过体重和尾巴长度(双变量)估计体长(因变量),
那么pmean都只会是1

P值

如何通过F值计算对应的P值呢?
假设我们创建了一组随机数据集,然后计算这个随机数据集的SS(mean)和SS(fit),
得到一个大小为2的F值,然后将F=2作为一个记录,绘制在直方图中


接下来创建另外一组随机数据集,然后计算F值,并且绘制在直方图中
image

那么最终我们会获得由很多随机数据集F值组成的直方图

然后我们计算得到原始数据集的F值,F=6,
那么对应的P值为2/23
2表示直方图中大于等于6的数据个数
23表示直方图中所有数据个数


实际上不会有人为了计算F值,每次都先去随机出一堆数据集,再画直方图
我们可以将每次随机出来的直方图通过光滑曲线记录下来



汇总许多数据集的结果之后,我们发现,根据直方图绘制的曲线仅和自由度相关
那么我们就可以直接通过自由度匹配对应的曲线,来计算p值了


申明

本文是根据StatQuest系列视频整理而来
已获得Josh Starmer授权说明
感谢久久琼殷不辞辛苦将视频转载至B站

Permmsion

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容