误差与残差的区别

在统计与优化问题中,误差与残差是两个密切相关且极易混淆的概念,都是用于衡量统计样本元素的观察值与“理论值”之间的偏差。

观测值的误差也被称为扰动是观测值与总体量(不可观测)真实值的偏差

观测值的残差,是观测值与样本量估计值的偏差


单变量分布的例子更好说明两者之间的区别:
估计某单分布的均值(即位置模型),误差是观测值与总体均值的偏差,而残差是观测值与样本均值的偏差。同时需要注意,样本平均值的定义,随机样本内的残差之和必定为零,因此残差不是相互独立的。另一方面,统计误差是独立的,并且它们在随机样本中的总和几乎肯定不为零。

假设一个正态分布的总体具有均值\mu和标准差\sigma,则有:

X_1,...,X_n \sim(\mu,\sigma^2)

样本均值为

\bar{X} = \frac{\sum_{i=1}^nX_i}{n}

误差为

e_i=X_i-\mu

残差为

r_i=X_i-\bar X

误差平方和除以\sigma^2得到具有n个自由度的卡方分布:

\frac1{\sigma^2}\sum_{i=1}^ne^2_i \sim \chi^2_n

然而,这个值是不可观察的,因为总体均数是未知的。另一方面,残差平方和是可以观察到的。与残差平方和除以\sigma^2为只有n−1个自由度的卡方分布:

\frac1{\sigma^2}\sum_{i=1}^nr^2_i \sim \chi^2_{n-1}

n和n−1自由度之间的差异导致Bessel对具有未知平均值和未知方差的总体中样本方差估计值的修正。如果已知总体平均值,则无需校正。


值得注意的是,残差平方和与样本均值可以证明是相互独立的,结合上面给出的正态分布和卡方分布,构成了涉及t统计量的计算基础:

T=\frac{\bar X_n-\mu_0}{S_n/\sqrt n}

其中\bar{X} _n-\mu_0代表误差,S_n代表样本大小为n标准差\sigma未知时的样本标准偏差,分母项S_n/\sqrt n表示由以下公式计算的误差标准差:

Var(\bar{X}_n)=\frac{\sigma^2}{n}

分子和分母的概率分布分别取决于不可观测总体标准差\sigma的值,但\sigma同时出现在分子和分母中并抵消意味着即使我们不知道\sigma,也可以知道这个结果的概率分布:它是一个具有n−1个自由度的student-t分布。因此可以用这个比值来找到\mu的置信区间。这个t-统计量可以解释为“远离回归线的标准误差的数量。“


在回归分析中,误差和残差之间的区别是微妙而重要的,给定一个不可观测函数,它将自变量与因变量联系起来,比如说,一条直线,因变量观测值与该函数的偏差即为不可观测误差。如果对某些数据进行回归,则因变量观测值与拟合函数的偏差即为残差。如果线性模型适用,针对自变量绘制的残差散点图应为零左右的随机分布图,且残差没有趋势。如果数据呈现趋势,则回归模型可能不正确;例如,真实函数可能是二次多项式或高阶多项式。如果它们是随机的,或者没有趋势,但是“扇出”——它们表现出一种称为异方差的现象。如果所有的残差都相等,或者没有扇出,它们表现出同构性。

然而术语上的差异出现在表达式均方误差(MSE)中。回归的均方误差是由计算的残差的平方和计算出来的数字,而不是不可观测误差的平方和。如果平方和除以n,即观察数,结果就是平方残差的平均值。由于这是对未观测误差方差的有偏估计,因此用残差平方和除以df=n−p−1而不是n来消除偏差,其中df是自由度数(n减去估计的参数(不包括截距)p的数量-1)。这形成了对未观测误差方差的无偏估计,称为均方误差。

另一种计算误差均方的方法是,在分析线性回归方差时使用方差分析(它们是相同的,因为方差分析是一种回归类型),残差的平方和(又名误差平方和)除以自由度(其中自由度等于n−p−1,其中p是模型中估计的参数数量(回归方程中每个变量一个,不包括截距)。然后还可以计算模型的平方和减去自由度,自由度就是参数的个数。然后,通过将模型的均方除以误差的均方,可以计算出F值,就可以确定显著性(这就是为什么要用均方来开始计算)。

由于回归过程的行为,即使误差本身分布相同,残差在不同数据点(输入变量)的分布也可能不同。具体地说,在误差分布相同的线性回归中,输入残差在域中间的变异性将高于域末端的残差的可变性:线性回归拟合端点的效果优于中间值。这也反映在各数据点对回归系数的影响函数上:端点的影响更大。

因此,为了比较不同输入下的残差,需要根据残差的预期变化来调整残差,这就是所谓的学习化。在检测异常值的情况下,这一点尤其重要,因为所讨论的情况与数据集中的其他情况有所不同。例如,一个大的残差可能在域的中间,但在域的末尾被认为是离群值。

From Wikipedia, the free encyclopedia

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354