正态分布的由来

1. 从算术平均数说起

  • 作为最常用的对总体平均水平的估计,为啥它就是最好的

2. 极大似然估计

  • 任务是通过测量值X1,X2,...,Xn来估计μ,n个数据对应n个误差测量值真实值之差),假设我们挑了一个数

作为对真值μ的估计,我们就能据此算出误差的估计:

  • 如果随机误差e1,e2,...,en服从某种已知的规律,那么出现这些误差的估计的概率就可以被计算出来:
  • 这是一个关于

    的函数,存在一个

    使其取值最大,我们把这个

    视作μ的最佳估计(极大似然意义)
  • 接下来就要找出随机误差的性质,也就是其概率密度函数,从而写出似然函数。
    • 首先,任意两个不同的测量值的随机误差之间是独立的,所以可以把似然函数拆开,变成每个随机误差出现概率的乘积

    • 其次,既然是随机误差,那么它在零点两侧的可能性是相同的。更进一步说,对于绝对值相同的误差,取值为正和取值为负的可能性应该是一样的。

    • 最后,绝对值小的随机误差出现的可能性比绝对值大的可能性大

    • 最后的最后,高斯反向解决了这个问题:假设算术平均数就是对真值的极大似然估计,那么什么样的误差分布能让算数平均数成为极大似然估计呢?他推出了:

也就是我们熟悉的正态分布。

3. 正态分布

3.1. 渊源

  • 拉普拉斯读到了高斯的论文,发现高斯推出的概率密度函数很面熟,和他的中心极限定理(棣莫弗-拉普拉斯中心极限定理)里推出的足够多个二项分布相加得到的分布的概率密度函数非常像。
  • 拉普拉斯认为这不是一个巧合,进而想到,虽然我们并不一定知道随机误差究竟是什么引起的,但是如果误差也可以看成许多微小量(拉普拉斯称之为“元误差”)叠加起来的总和,那么根据中心极限定理,随机误差也就该服从正态分布了。

3.2. 中心极限定理的演进

  • 2.0版:如果我们有n个独立、同分布的随机变量,而且它们的均值和方差都是有限的,那么当n趋于无穷大时,这n个随机变量之和的一个简单变换(类似于之前棣莫弗-拉普拉斯中心极限定理中的变换)服从正态分布。
  • 3.x版:很多时候,即使随机变量并不独立,或者并非来自同样的概率分布,它们的和(或者均值——由于n是个确定的数,因此求和与求均值是等价的)在n足够大时仍然服从正态分布。

3.3. 为什么重要

  • 首先,中心极限定理是概率论和统计学最重要的定理(没有之一);
  • 其次,我们接下来要讲到的许多统计学方法——如t检验、方差分析、多元线性回归等——都会对数据的正态性有要求。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • 转自-靳志辉(Rickjin@weibo.com) 神说要有正态分布,就有了正态分布。 神说正态分布是好的,就让随...
    士多啤梨苹果橙_cc15阅读 8,075评论 0 5
  • 数据分析方法分为四大类: 1、单纯的数据加工方法 a.描述性统计分析(集中、离中趋势分析和数据分布) b.相关性分...
    重生之魂阅读 2,802评论 0 3
  • 一、度量事件发生的可能性 概率 定义:概率是对事件发生的可能性大小的度量明天降水的概率是80%。这里的80%就是对...
    EvanForEver阅读 4,076评论 1 9
  • 新车到手了,感觉生活马上就要变样了,oh,等等,你和它的“蜜月期”重要到决定你们将来的幸福生活哦,先来看看如何顺利...
    dolly璐阅读 509评论 0 1
  • 小满同学刚刚翻了个身,然后放了个屁,哈哈。 老母亲拖延症又犯了,还没去洗漱,估计一会又该困了。反正也没洗,正好打完...
    喵皇后阅读 98评论 0 0