正态分布

正态分布,英语叫“Normal Distribution”,normal是普通的,正常的意思。如果翻译成“普通分布”,或者“常规分布”,马上就会想到这是在自然界中最常见的一种分布形式,但翻译成“正态分布”,对于像我这种普通人来说,很难立刻想到这是最常见的一种分布。

正态分布是由系统中连续随机变量的概率密度函数定义的。设是随机变量,f(x) 是概率密度函数,即在一个无穷小的范围内,随机变量出现的概率。

f(x) ≥ 0  :\forall x\in (-\propto , +\propto ) 并且 \int_{-\propto }^{+\propto } f(x)dx = 1

正态分布或高斯分布的概率密度函数公式为:

f(x,\mu ,\sigma )=\frac{1}{\sigma \sqrt{2\pi } } e^\frac{-(x-\mu )^2 }{2\sigma ^2 }

其中,x 为随机变量;μ 为随机变量x在整个变化范围内 (−∞,+∞) 的平均值;σ 为随机变量取值的标准差 (Standard Deviation)。

在正态分布中,所谓“随机变量”指的是在一定变化范围内其值可能为任意一个数值的变量。比如说一个学校学生的身高就是一个随机变量,它可能为1.5 m,也可能为2.0 m,极端的情况它也可能是5 m,只不过这种可能能太低太低了。这个范围是受到实际情况限制的,纯碎数学意义上的正态分布,随机变量的取值范围不受实际条件的限制,可以扩展到(−∞,+∞) ,并且可以连续变化。当我们确定了随机变量的平均值和标准偏差后,概率密度函数 f(x) 也就确定下来了,那么对于上任意范围内 X 出现的概率也就可以计算出来。

一般地,对于符合正态分布的随机变量,其标准差是大于0 的实数,表征数据的分布情况。其值越大,则数据越分散,曲线越宽泛;标准差越小,则数据越集中,曲线高而窄。正态分布的钟形曲线是左右对称的,对称轴正好在平均值上,即 x =\mu 正态分布有任何正的标准差。如果采用标准差的倍数分割随机变量的取值范围,那么我们就可以确定不同范围内x出现的概率,比如:

(\mu -\sigma ,\mu +\sigma )范围内,x出现的概率约为68%;

(\mu -2\sigma ,\mu +2\sigma )范围内,x出现的概率约为95%;

(\mu -3\sigma ,\mu +3\sigma )范围内,x出现的概率约为99.7%。


图1. 正态分布曲线

以下是正态分布的一些重要性质:

        (1)在正态分布中,平均数、中位数和模相等。

        (2)曲线下的总面积为1,即在全部范围内,随机变量x出现的概率为100%。

        (3)正态分布曲线以x=\mu 为轴线,左右对称分布。

        (4)正态分布曲线由平均值和标准差来定义。

学生的成绩、人体的身高和血压等数据都符合正态分布。但实际情况,学生的成绩并不符合正态分布。



正态分布咋来的呢?

如果你要向一个直角坐标系投掷飞镖,目标靶心就是直角坐标系的坐标原点,但你知道大部分情况下你都不会正中靶心的,假设所有的投掷都是随机的,并且:

——随机误差与坐标系的方向无关,所以你不要考虑重力会不会对飞镖的位置有影响,现在我们认为,No。

——飞镖的x,y方向时相互独立的,也即是说飞镖落在y的位置不会影响到它在x方向的位置,反之亦然。

——大误差出现的可能性比小误差的小。(这个假设符合实际吗?比如误差为0.00001mm 和误差为3mm, 哪个概可能性大,哪个可能性小?)


图2. 飞镖落在坐标系内各种位置的可能性

根据上述假设,在图2中,飞镖落在A处的可能性比落在B位置的可能性要大,同样,落在B位置的概率又大于落在C位置的概率,因为相对B,A更靠近靶心;相对于C,B更靠近靶心。右图中,落在F区域内的概率大于落在E区域内的概率,后者的概率又大于D区域概率,——因为区域的面积依次减小。

所以飞镖落在某一区域的概率与该区域的大小有关,因此我们可以设飞镖落在(x,x+\Delta x)范围内的概率为p(x)\Delta x。类似地,飞镖落在(y,y+\Delta y)范围的几率可设为p(y)\Delta y

图3. 

那么在r(x,y)位置上的\Delta x\Delta y区域内,飞镖出现的概率为

p(x)\Delta x\cdot p(y)\Delta y=p(x)p(y)\Delta x\Delta y=g(r)\Delta x\Delta y

这就是说:

g(r)=p(x)p(y)

方程两边同时对幅角\theta 取导数,左边式g(r)中因为不含\theta ,所以导数为0,即

0=p(x)\frac{dp(y)}{d\theta } +p(y)\frac{dp(x)}{d\theta } =p(x)\frac{dp(y)}{dy } \frac{dy}{d\theta } +p(y)\frac{dp(x)}{dx }\frac{dx}{d\theta }

y =rsin\theta ;x=rcos\theta 代入上式:

p(x)\frac{dp(y)}{dy} (rcos\theta) -\frac{dp(x)}{dx} p(y)(rsin\theta) =0

\frac{p’(x)}{xp(x)} =\frac{p’(y)}{yp(y)}

对于任意不相关的x,y,上述微分方程都成立,那么必然就有

\frac{p’(x)}{xp(x)} =\frac{p’(y)}{yp(y)} =C(onstant)

分别解微分方程\frac{p’(x)}{xp(x)} =C\frac{p’(y)}{yp(y)} =C

ln(p(x))=C\frac{x^2 }{2} +c

由此,

p(x)=Ax^\frac{Cx^2}{2}

因为x越大,概率越小,但p(x)大于0,所以C必然小于0,设C=-k,k>0

所以有

p(x)=Ae^\frac{-kx^2}{2}

这是正态分布曲线的通用表达式,现在我们来确定其中的常数A和k。

我们知道,在整个取值范围(−∞,+∞) 内,随机变量x出现的几率为1,即

\int_{−∞}^{+∞} p(x)dx=\int_{−∞}^{+∞} Ae^\frac{-kx^2}{2}dx=1

重新整理为

\int_{−∞}^{+∞} e^\frac{-kx^2}{2}dx=\frac{1}{A}

因为e^\frac{-kx^2}{2}为偶函数,在x=0位置左右对称,所以

\int_{−∞}^{+∞} e^\frac{-kx^2}{2}dx=2\int_{0}^{+∞} e^\frac{-kx^2}{2}dx

即有

\int_{0}^{+∞} e^\frac{-kx^2}{2}dx=\frac{1}{2A}

同样地,

\int_{0}^{+∞} e^\frac{-ky^2}{2}dy=\frac{1}{2A}

两式相乘,得

\int_{0}^{+∞}\int_{0}^{+∞} e^\frac{-k(x^2+y^2)}{2}dxdy=\frac{1}{4A^2}

左边用极坐标的形式表达为

\int_{0}^{+∞}\int_{0}^{\frac{\pi }{2} } e^\frac{-kr^2}{2}rdrd\theta =\frac{1}{4A^2}

左边可积,即可得

\frac{\pi }{2k} =\frac{1}{4A^2}

A=\sqrt{\frac{k}{2\pi } }

因此概率密度函数的形式为:

p(x)=\sqrt{\frac{k}{2\pi } }e^\frac{-kx^2}{2}

那么问题是:k又怎么确定呢?

当我们在谈论概率时,首先想到的是平均值是什么?数据是怎么分布的?k的大小就会涉及到平均值和分布的问题。现在问题是:如果你知道概率密度函数p(x),那么你怎么用它来表达平均值的大小呢?首先你要理解p(x)的含义,它表示在随机变量在x位置dx的范围内出现的概率,p(x)dx表示随机变量取任意x的百分数,xp(x)dx表示随机变量为x时在平均数中的贡献值,在取值范围内将所有的贡献值加起来就是平均值了,即平均值\mu =\int_{−∞}^{+∞} xp(x)dx。类似地,方差大小可表示为\sigma ^2 =\int_{−∞}^{+∞} (x-\mu )^2 p(x)dx

你知道函数xp(x)为奇函数,所以平均值\mu =\int_{−∞}^{+∞} xp(x)dx=0,并且\sigma ^2 =\int_{−∞}^{+∞} x^2 p(x)dx。将p(x)=\sqrt{\frac{k}{2\pi } }e^\frac{-kr^2}{2}带入到方差的表达式中,得:

\sigma ^2 =\sqrt{\frac{k}{2\pi } }\int_{−∞}^{+∞} x^2 e^\frac{-kx^2}{2}dx

因为x^2 e^\frac{-kx^2}{2}为偶函数,所以上式可以写成

2\sqrt{\frac{k}{2\pi } }\int_{0}^{+∞} x^2 e^\frac{-kx^2}{2}dx=\sigma ^2

x^2 e^\frac{-kx^2}{2}可以看做-\frac{1}{k} x e^\frac{-kx^2}{2}的一个分步积分,即有

\int_{0}^{+∞} x^2 e^\frac{-kx^2}{2}dx=[-\frac{1}{k} x e^\frac{-kx^2}{2}]_{0}^∞ +\frac{1}{k} \int_{0}^{+∞}e^\frac{-kx^2}{2}dx

其中[-\frac{1}{k} x e^\frac{-kx^2}{2}]_{0}^∞=0

\int_{0}^{+∞}e^\frac{-kx^2}{2}dx=\frac{1}{2A} =\sqrt{\frac{\pi }{2k} }

所以

\sigma ^2= 2\sqrt{\frac{k}{2\pi } }\int_{0}^{+∞} x^2 e^\frac{-kx^2}{2}dx=\frac{1}{k}


k=\frac{1}{\sigma ^2 }

由此根据上述三个假设,我们可以得到概率密度函数的表达式为:

p(x)=\frac{1}{\sigma \sqrt{2\pi } } e^{-\frac{1}{2}{{(\frac{x}{\sigma } )}^2}}

当随机变量的平均值\mu 不为0时,正态分布的通用表达式为

p(x)=\frac{1}{\sigma \sqrt{2\pi } } e^{-\frac{1}{2}{{(\frac{x-\mu }{\sigma } )}^2}}

标准正态分布平均值为0,标准差为1,则概率密度函数表达式为:

p(x)=\frac{1}{ \sqrt{2\pi } } e^{-\frac{1}{2} x^2}

done!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容