【白话数据分析】聊聊“平均值”与“正态分布”

01 举个栗子

在生活中,身高是一个常见的连续变量,而且大多数人的身高分布符合正态分布。例如,假设我们测量了一个班级中所有学生的身高,并画出了身高的频率分布直方图。如果这个分布呈现出钟形曲线的形状,那么这个分布就可以被认为是正态分布。在正态分布中,大多数人的身高会集中在中间,而极端的高或低身高的人数则较少。

正态分布是统计学中常用的一种分布类型,它也被称为高斯分布或钟形曲线。正态分布的特点是具有单峰、对称、连续和无限可分性等特点。它的概率密度函数具有一个峰值,峰值处的概率最大,并且在峰值两侧逐渐减小,呈现出一条平滑的钟形曲线。正态分布在生活中和数据分析工作中都有广泛的应用。

02 为什么会出现正态分布?

正态分布是一种统计学上的概率分布模型,它是自然界和社会现象中最常见的分布之一。从自然界规律的角度来解释这种现象,我们可以从以下几个方面进行阐述:

中心极限定理

中心极限定理是统计学中的一个基本定理,它指出当样本量足够大时,任何随机变量的均值分布将趋近于正态分布。这个定理可以解释为,在自然界和社会现象中,许多现象是由许多不同因素的综合作用而形成的,这些因素的影响是随机的,而且通常是相互独立的。因此,随着数据量的增加,这些随机因素的影响将趋于平均化,产生一个近似正态分布的结果。

自然界的复杂性

自然界中的许多生物和物种都具有复杂的生理和行为特征。例如,身高、体重和寿命等生物学变量通常受到许多基因和环境因素的影响。由于这些因素的影响是随机的,它们可能会产生一个接近正态分布的结果。

人类社会的复杂性

人类社会和经济活动也具有相当的复杂性。例如,收入、财富和教育水平等变量通常受到许多社会、文化和经济因素的影响。这些因素的影响通常是随机的,并且可能在不同的群体之间呈现出正态分布的形式。

所以,正态分布在自然界和社会现象中非常常见,这是由于许多因素的随机性和独立性作用于复杂的生物、自然和社会系统而产生的结果。

03 数分中正态分布使用场景

在数据分析工作中,正态分布是非常重要的概念,因为它可以帮助我们判断数据是否符合某些假设,以及确定使用哪种统计方法。以下是一些数据分析工作中需要使用正态分布的场景:

假设检验

在假设检验中,我们需要假设数据是从一个已知分布中随机抽取的。如果我们假设数据来自正态分布,那么就需要检验数据是否符合正态分布。许多假设检验的方法都基于正态分布的假设。例如,当我们需要检验两个样本的平均值是否相等时,我们可以使用t检验。但是,t检验的前提条件是样本符合正态分布。如果数据不符合正态分布,则需要使用非参数检验方法。

回归分析

在回归分析中,我们通常假设因变量在各自的自变量取值下是正态分布的。如果数据不符合正态分布,我们可能需要对数据进行转换,使其更符合正态分布。

统计建模

在许多统计建模中,我们需要假设响应变量(例如销售额)的分布符合正态分布。如果响应变量不符合正态分布,则需要采用其他建模方法,例如广义线性模型或非参数方法。

控制图

控制图是一种质量控制工具,可以帮助我们监控过程是否处于控制状态。控制图中的控制限也是基于正态分布的假设计算出来的。

04 数分中正确使用正态分布

在数据分析中,正确使用正态分布可以帮助我们做出更准确和可靠的统计推断。以下是一些使用正态分布的建议:

正态性检验

在使用正态分布进行假设检验或模型构建之前,需要先进行正态性检验以确保数据符合正态分布。

绘制直方图或密度图:绘制直方图或密度图可以帮助我们观察数据的分布情况,并判断是否符合正态分布。如果数据呈现出钟形曲线的形状,那么它很可能是正态分布。

使用相关工具和技术:在数据分析中,有许多工具和技术可以帮助我们使用正态分布进行分析,例如正态分布表、正态概率图、Q-Q图等。

进行正态性检验:进行正态性检验可以帮助我们确定数据是否符合正态分布。在数据分析中,有很多方法可以检验数据的正态性,例如Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Anderson-Darling检验等。但需要注意的是,即使正态性检验的结果显示数据不符合正态分布,也不一定意味着我们不能使用基于正态分布的方法,因为有些方法对数据分布的偏离并不敏感。

正态性变换

如果数据不符合正态分布,我们可以尝试对数据进行变换,使其更接近于正态分布。例如,可以尝试对数变换、平方根变换或Box-Cox变换等。

理解正态分布的性质

正确理解正态分布的性质,在进行统计分析时,了解正态分布的性质可以帮助我们更好地理解数据。例如,正态分布有一个平均值和标准差,这些统计量可以用来描述数据的中心和变异程度。在进行假设检验或建模时,我们需要知道正态分布的均值和标准差的性质,以便进行正确的统计推断。

正态分布与抽样误差

正确理解正态分布与抽样误差的关系,在数据分析中,我们通常会从样本中进行推断整个总体的性质。正态分布与中心极限定理的关系,可以帮助我们理解样本大小对抽样误差的影响。如果样本足够大,即使总体不符合正态分布,样本均值的分布也会趋近于正态分布。

谨慎使用

虽然正态分布在许多情况下非常有用,但并不是所有数据都符合正态分布。在使用正态分布时,需要注意数据的特征,以便确定是否适用于该分布。

05 总结

总之,正态分布是数据分析中非常重要的概念,它可以帮助我们判断数据是否符合某些假设,以及确定使用哪种统计方法。在数据分析工作中,我们需要正确理解和使用正态分布,以避免误解数据分布和误用统计方法。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,163评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,301评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,089评论 0 352
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,093评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,110评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,079评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,005评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,840评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,278评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,497评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,667评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,394评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,980评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,628评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,649评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,548评论 2 352

推荐阅读更多精彩内容