正态分布的应用——基于正态分布检验产品合格性(理论)

内容导入:

大家好,这里是海数据每天分析一点点。本期介绍正态分布的基本原理与应用,包括什么是分布,正态分布的表达方式与特点,再结合产品合格性检验案例对3σ原则进行应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍描述性统计分析与分布的关系,欢迎大家关注。

概念介绍:

分布的概念:

数据分布,是指在统计分组的基础上,将总体中各单位按组归类整理,按一定顺序排列,形成的总体中各单位在各组间的分布。其实质是,在各组按顺序排列的基础上,列出每个组的总体单位数,形成一个数列,称次数分布数列,简称分配数列,各组的总体单位数叫次数或频数。一般用次数分布表和次数分布图来表示。数据分布的基础是数据频度分布表。

我们可以扔 10,000 次骰子,每次骰子会产生 6 个可能的值,我们可以创建 6 个桶。并记录每个值出现的次数。


由频数分布表可以转换为频数分布图,我们可以根据这些值作图。所作曲线就是概率分布曲线,目标变量得到一个值的概率就是该变量的概率分布。


如何描述频度分布图的特点呢?

1、左边数据多还是右边数据多?

2、左边陡峭还是右边陡峭?

3、是否存在极大极小的离群值?

4、是‘凸’的还是‘凹’的?

5、总体的形状像什么?

偏度:描述数据偏向,大数据多还是小数据多,刻画的是中位数、众数与平均值的关系;峰度:是‘凸’的还是‘凹’,数据形状,陡峭程度偏度+峰度:刻画数据离群值状况。这些内容在后期给大家介绍。

数据分布如果满足一些特性,就会转变为正态分布。正态分布是统计学应用非常广泛的分布图形,接下来让我们来看看吧。

正态分布的概念:

如果对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。正态分布也被称为高斯分布


若随机变量服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度函数为


正态分布,当其平均值与标准差满足一定条件时,就会变成标准正态分布。当

时,正态分布就成为标准正态分布。表达方式为


正态分布的特点:1、集中性。正态曲线的高峰位于正中央,即均数所在的位置;2、对称性。正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交;3、均匀变动性。正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。

综合应用场景:

正态分布的应用十分广泛,比如假设检验、3σ异常值检测等,这次先给大家介绍P值与3σ原则。

P值应用案例:

P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。如果0.01<P值<0.05,说明较弱的判定结果,拒绝假定的参数取值。如果P值>0.05,说明结果更倾向于接受假定的参数取值。目前最常用的是0.05这个界限。

P值是什么呢?P值是标准正态分布的面积,标准正态分布面积为1,P值代表不合格的容忍度。比如0.05这个界限,代表的是容忍5%以下的出错率。

    不好理解对吗?小海马给大家准备了通俗易懂的视频,方便大家理解,视频不长,大家可以关注我们的微信公众号进行视频的学习。

3σ应用案例:

除了P值的应用,3σ也是正态分布在生产中较为广泛的应用。3σ原则通常用于剔除数据异常值,用样本简单推定总体的方法。应用这个原则,是有条件的,数据需要符合正态分布。σ是指什么呢?σ是指标准差。

先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除就得出3σ。

在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴。

数值分布在(μ-σ,μ+σ)中的概率为0.6826;

数值分布在(μ-2σ,μ+2σ)中的概率为0.9544;

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974;

可以认为,数据的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%。通常把等于±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有0.27%,它在测量中发生的可能性很小,故存在3σ准则。

理论听着过于抽象,我举个例子。假设我厂今日生产出1000万个口罩,随机抽样3次,每次抽样10000进行检测,使用3σ原则辨别这批口罩是否合格。

第一种情况

第一次有5个不合格;第二次有3个不合格;第三次有4个不合格。

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,不合格率容忍度为0.26%,第一次不合格率为0.05%;第二次不合格率为0.03%;第三次不合格率为0.04%,均小于0.26%的标准,因此抽样是合格的。因为是随机抽样,样本与总体的分布一致,因此我们合理推测总体是合格的。

第二种情况

第一次有50个不合格;第二次有83个不合格;第三次有101个不合格。

数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,不合格率容忍度为0.26%,第一次不合格率为0.5%;第二次不合格率为0.83%;第三次不合格率为1.01%,均大于0.26%的标准,因此抽样是不合格的。因为是随机抽样,样本与总体的分布一致,因此我们合理推测总体是不合格的。

文字不够直观,我们在微信公众号上传了视频,大家如果还没有理解透彻,可以关注我们的微信公众号观看视频,会给你带来新的感悟哦。

想获取更多内容,请关注海数据公众号。

本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351