大师兄的应用回归分析学习笔记(二):一元线性回归(一)

一、一元回归模型

  • 一元线性回归是描述两个变量之间统计关系最简单的回归模型。
1. 模型的实际背景
  • 在实际问题研究中,经常需要研究某一现象欲影响它的某一最主要因素的关系。
  • 非确定线性关系:两个变量之间有密切关系,但它们之间密切的程度达不到一个变量唯一确定另一个变量。
2. 数学形式
  • y = \beta_0 + \beta_1 x + \epsilon
  • x的变化引起y的线性变化,即\beta_0 + \beta_1 x
  • 其它的一切随机因素为\epsilon
  • y为被解释变量(因变量)
  • x为解释变量(自变量)
  • \beta_0\beta_1是未知参数,\beta_0为回归常数,\beta_1为回归系数。
  • 通常假定\epsilon满足:\begin{cases} E(\epsilon)=0 \\ var(\epsilon) = \delta^2 \end{cases}
  • E(\epsilon)表示数学期望
  • var(\epsilon)表示方差
  • 回归方程:E(y|x) = \beta_0 + \beta_1 x,从平均意义上表达了变量y与x的统计规律性。
  • 回归分析的主要任务就是通过n组样本观测值(x_1,y_i)(i=1,2,...,n)\beta_0,\beta_1进行估计,一般用\hat\beta_0,\hat\beta_1表示估计值。
  • 一元线性经验回归方程:\hat y = \hat\beta_0 + \hat\beta_1 x
  • \hat\beta_0表示经验回归直线在纵轴上的截距,如果x\neq0,\hat\beta_0只是作为回归方程中的分开项,没有具体意义。
  • \hat\beta_1表示经验回归直线的斜率,在实际应用中表示自变量x增加一个单位时,因变量y平均增加数量
  • 实际中,为了方便对参数做区间估计假设检验,假定误差项\epsilon服从正态分布,即\epsilon\sim N(0,\delta^2)

二、参数\beta_0,\beta_1的估计

1. 普通最小二乘估计
  • 为了由样本数据得到回归参数\beta_0\beta_1的理想估计值,通常使用普通最小二乘估计(ordinary least estimation, OLSE)
  • 最小二乘法就是寻找参数\beta_0,\beta_1的估计值\hat\beta_0,\hat\beta_1
  • 对每一个样本观测值(x_i,y_i),最小二乘法考虑观测值y_i,与其回归值E(y_i) = \beta_0 +\beta_1 x_i的离差越小越好。
  • 离差平方和达到极小,满足:Q(\hat\beta_0,\hat\beta_1) = \sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2 = \underset{\beta_0,\beta_1}{\min}\sum^n_{i=1}(y_i-\hat\beta_0 - \hat\beta_1 x_i)^2
  • 求出的\hat\beta_0,\hat\beta_1称为回归参数\beta_0,\beta_1最小二乘估计
  • \hat y_i = \hat\beta_0 + \hat\beta_1 x_iy_i(i=1,2,...,n)回归拟合值
  • e_i = y_i - \hat y_iy_i (i=1,2,...,n)残差
  • 从几何关系上看,用一段线性回归方程拟合n个样本观测点,要求回归直线\hat y_i = \hat\beta_0 + \hat\beta_1 x_i位于这n个样本点中间,或者说n个样本点最靠近这条回归直线。
  • 残差平方和\sum^n_{i=1}e^2_i = \sum^n_{i=1}(y_i - \hat\beta_0 - \hat\beta_1 x_i)^2从整体上刻画了n个样本观测点到回归直线\hat y_i = \hat\beta_0 + \hat\beta_1 x_i距离的长短。
  • 从物理学角度看,回归直线通过样本的重心。
  • 为了确定回归直线就是使它与所有样本数据点都比较靠近,为了刻画这种靠近程度,人们曾设想用绝对残差和,即\sum^n_{i=1}|e_i| = \sum^n_{i=1}|y_i - \hat y_i|来度量观测值与回归直线的接近程度,但是绝对残差在数学处理上比较麻烦,所以在经典的回归分析中,都用残差平方和方式来描述因变量观测值与回归直线的偏离程度。
2. 最大似然估计
  • 最大似然估计(maximum likelihood estimation, MLE)是利用总体的分布密度或概率分布的表达式及样本所提供的信息求未知参数估计量的一种方法,也可以作为回归参数的估计方法。
  • 比如已知事件A发生的概率p只可能是0.01或0.1,若在一次实验中时间A发生了,自然应当认为事件A发生的概率p是0.1,而不是0.01。把这种考虑问题的方法一般化,就得到最大似然准则。
  • 对连续型随机变量,似然函数就是样本的联合分布密度函数;对离散型随机变量,似然函数就是样本的联合概率函数。
  • 一元线性回归模型参数的最大似然估计,如果已经得到样本观测值(x_i,y_i)(i=1,2,...,n),其中x_i为非随机变量,y_1,y_2,...,y_n为随机样本,假设\epsilon \sim N(0,\delta^2)时,
  • y_i服从正态分布y_i \sim N(\beta_0 + \beta_1 x_i,\delta^2)
  • y_i的分部密度为f_i(y_i) = \frac{1}{\sqrt{2\pi\delta}}exp\{-\frac{1}{2\delta^2}[y_i - (\beta_0 + \beta_1 x_1)]^2\},i=1,2,...,n
  • y_1,y_2,...,y_n似然函数为:L(\beta_0,\beta_1,\delta^2) = \Pi^n_{i=1}f_i(y_i)= 2(\pi\delta^2)^{-\frac{\pi}{2}}exp\{-\frac{1}{2\delta^2}\sum^n_{i=1}[y_i - (\beta_0 + \beta_1 x_1)]^2\}
  • \delta^2 的有偏估计值:\hat\delta^2 = \frac{1}{n}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2
    • \delta^2 的无偏估计值:\hat\delta^2 = \frac{1}{n-2}\sum^n_{i=1}(y_i - \hat y_i)^2 = \frac{1}{n-2}\sum^n_{i=1}[y_i - (\hat\beta_0 + \hat\beta_1 x_i)]^2

三、 最小二乘估计的性质

1. 线性
  • 线性指的是估计量\hat\beta_0,\hat\beta_1为随机变量y的线性函数。
  • 因为y_i为随机变量,所以作为y_i的线性组合\hat\beta_0,\hat\beta_1也是随机变量,各有其概率分布、均值、方差、标准差及两者的协方差。
2. 无偏性
  • 无偏估计的意义是,如果屡次变更数据,反复求\beta_0,\beta_1的估计值,则这两个估计量没有高估或低估的系统趋向,他们的平均值将趋于\beta_0,\beta_1
  • 这表明回归值\hat y是E(y)的无偏估计,也说明\hat y与真实值y的平均值是相同的。
3. \hat\beta_0,\hat\beta_1的方差
  • 一个估计量是无偏的,只揭示了估计量优良性的一个方面,通常还应关心估计量本身的波动状况,所以需要进一步研究它的方差。
  • var(\hat\beta_1) = \sum^n_{i=1}[\frac{x_i-\bar x}{\sum^n_{j=1}(x_j-\bar x)^2}]^2var(y_i) = \frac{\delta^2}{\sum^n_{j=1}(x_j - \bar x)^2}
  • var(\hat\beta_1)反映了\beta_1的波动,即差异度。
  • \beta_1不仅与随机误差的方差delta^2有关,而且与自变量x的取值离散程度有关。如果x的取值比较分散,即x的波动较大,则\beta_1的波动就小,比较稳定。
  • var(\hat\beta_0) = [\frac{1}{n} + \frac{(\bar x)^2}{\sum(x_i - \bar x)^2}]\delta^2
  • 可见回归常数\beta_0的方差不仅与随机误差的方差\delta^2和自变量x的取值离散程度有关,而且同样本数据的个数n有关。
  • n越大var(\hat \beta_0)越小
  • 所以要使\beta_0,\beta_1的估计值\hat\beta_0,\hat\beta_1更稳定,在收集数据时,就应该考虑x的取值尽可能分散一些,样本量也应该尽可能一些。
  • 由于\hat\beta_0,\hat\beta_1服从正态分布,有
  • \hat\beta_0 \sim N(\beta_0,(\frac{1}{n} +\frac{(\bar x)^2}{L_{xx}})\delta^2)
  • \hat\beta_1 \sim N(\beta_1,\frac{\delta^2}{L_{xx}})
  • \hat\beta_0,\hat\beta_1的协方差:cov(\hat\beta_0,\hat\beta_1) = -\frac{\bar x}{L_{xx}}\delta^2,说明\bar x=0时,\hat\beta_0和\hat\beta_1不相关,在正态假定下独立;在\bar x\neq 0时不独立。
  • 根据高斯-马尔科夫条件可以证明,\hat\beta_0和\hat\beta_1分别是\beta_0和\beta_1的最佳线性无偏估计(beat linear unbiased estimator,BLUE),也称为最小方差线性无偏估计。
  • 对固定的x_0来讲\hat y_0 = \hat\beta_0 + \hat\beta_1 x_0也是y_1,y_2,...,y_n的线性组合,且\hat y_0 \sim N(\beta_0 + \beta_1 x_0,(\frac{1}{n} + \frac{(x_0 - \bar x)^2}{L{xx}})\delta^2)
  • 可见\bar y_0是E(y_0)的无偏估计
  • \bar y_0的方差随给定的x_0值与\overline x的距离|x_0 - \overline x|的增大而增大。
  • 说明在实际应用回归方程进行控制和预测时,给定的x_0值不能偏离样本均值太多,否则无论用回归方程做因素分析还是预测效果都不会理想。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容

  • 大师兄的应用回归分析学习笔记(二):一元线性回归(一)[https://www.jianshu.com/p/546...
    superkmi阅读 166评论 0 2
  • 准备 ①导入文件查看默认存储路径,再将csv文档存入文件夹打开:(使用逗号作为小数点、分号作为字段分隔符的地区中使...
    小新122阅读 2,172评论 0 1
  • 一元线性回归 昨天简单的写了一下回归模型、参数假设和参数估计的办法,今天学习参数的性质和极大似然估计。 参数 β1...
    cry15阅读 1,629评论 0 0
  • 参考书目为安德森的《商务与经济统计》,以下为个人的学习总结,如果有错误欢迎指正。有需要本书pdf的,链接在本文末尾...
    愚盆阅读 3,138评论 0 1
  • 第5章 多元线性回归 5.1 二元线性回归 一元线性回归会遗漏变量 Xi1中,i表示第i个个体,1表示是第一个解释...
    mhhhpl阅读 10,117评论 1 0