内容导入:
大家好,这里是海数据每天分析一点点。本期介绍正态分布的基本原理与应用,包括什么是分布,正态分布的表达方式与特点,再结合产品合格性检验案例对3σ原则进行应用。文章内容适合数据分析小白,内容深入浅出,案例贴合实际。下期给大家介绍描述性统计分析与分布的关系,欢迎大家关注。
概念介绍:
分布的概念:
数据分布,是指在统计分组的基础上,将总体中各单位按组归类整理,按一定顺序排列,形成的总体中各单位在各组间的分布。其实质是,在各组按顺序排列的基础上,列出每个组的总体单位数,形成一个数列,称次数分布数列,简称分配数列,各组的总体单位数叫次数或频数。一般用次数分布表和次数分布图来表示。数据分布的基础是数据频度分布表。
我们可以扔 10,000 次骰子,每次骰子会产生 6 个可能的值,我们可以创建 6 个桶。并记录每个值出现的次数。
由频数分布表可以转换为频数分布图,我们可以根据这些值作图。所作曲线就是概率分布曲线,目标变量得到一个值的概率就是该变量的概率分布。
如何描述频度分布图的特点呢?
1、左边数据多还是右边数据多?
2、左边陡峭还是右边陡峭?
3、是否存在极大极小的离群值?
4、是‘凸’的还是‘凹’的?
5、总体的形状像什么?
偏度:描述数据偏向,大数据多还是小数据多,刻画的是中位数、众数与平均值的关系;峰度:是‘凸’的还是‘凹’,数据形状,陡峭程度偏度+峰度:刻画数据离群值状况。这些内容在后期给大家介绍。
数据分布如果满足一些特性,就会转变为正态分布。正态分布是统计学应用非常广泛的分布图形,接下来让我们来看看吧。
正态分布的概念:
如果对概率分布作图,得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。正态分布也被称为高斯分布。
若随机变量服从一个位置参数为μ、尺度参数为σ的概率分布,且其概率密度函数为
正态分布,当其平均值与标准差满足一定条件时,就会变成标准正态分布。当
时,正态分布就成为标准正态分布。表达方式为
正态分布的特点:1、集中性。正态曲线的高峰位于正中央,即均数所在的位置;2、对称性。正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交;3、均匀变动性。正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
综合应用场景:
正态分布的应用十分广泛,比如假设检验、3σ异常值检测等,这次先给大家介绍P值与3σ原则。
P值应用案例:
P值是用来判定假设检验结果的一个参数,也可以根据不同的分布使用分布的拒绝域进行比较。如果P<0.01,说明是较强的判定结果,拒绝假定的参数取值。如果0.01<P值<0.05,说明较弱的判定结果,拒绝假定的参数取值。如果P值>0.05,说明结果更倾向于接受假定的参数取值。目前最常用的是0.05这个界限。
P值是什么呢?P值是标准正态分布的面积,标准正态分布面积为1,P值代表不合格的容忍度。比如0.05这个界限,代表的是容忍5%以下的出错率。
不好理解对吗?小海马给大家准备了通俗易懂的视频,方便大家理解,视频不长,大家可以关注我们的微信公众号进行视频的学习。
3σ应用案例:
除了P值的应用,3σ也是正态分布在生产中较为广泛的应用。3σ原则通常用于剔除数据异常值,用样本简单推定总体的方法。应用这个原则,是有条件的,数据需要符合正态分布。σ是指什么呢?σ是指标准差。
先假设一组检测数据只含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡超过这个区间的误差,就不属于随机误差而是粗大误差,含有该误差的数据应予以剔除就得出3σ。
在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴。
数值分布在(μ-σ,μ+σ)中的概率为0.6826;
数值分布在(μ-2σ,μ+2σ)中的概率为0.9544;
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974;
可以认为,数据的取值几乎全部集中在(μ-3σ,μ+3σ)]区间内,超出这个范围的可能性仅占不到0.3%。通常把等于±3σ的误差作为极限误差,对于正态分布的随机误差,落在 ±3σ以外的概率只有0.27%,它在测量中发生的可能性很小,故存在3σ准则。
理论听着过于抽象,我举个例子。假设我厂今日生产出1000万个口罩,随机抽样3次,每次抽样10000进行检测,使用3σ原则辨别这批口罩是否合格。
第一种情况:
第一次有5个不合格;第二次有3个不合格;第三次有4个不合格。
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,不合格率容忍度为0.26%,第一次不合格率为0.05%;第二次不合格率为0.03%;第三次不合格率为0.04%,均小于0.26%的标准,因此抽样是合格的。因为是随机抽样,样本与总体的分布一致,因此我们合理推测总体是合格的。
第二种情况:
第一次有50个不合格;第二次有83个不合格;第三次有101个不合格。
数值分布在(μ-3σ,μ+3σ)中的概率为0.9974,不合格率容忍度为0.26%,第一次不合格率为0.5%;第二次不合格率为0.83%;第三次不合格率为1.01%,均大于0.26%的标准,因此抽样是不合格的。因为是随机抽样,样本与总体的分布一致,因此我们合理推测总体是不合格的。
文字不够直观,我们在微信公众号上传了视频,大家如果还没有理解透彻,可以关注我们的微信公众号观看视频,会给你带来新的感悟哦。
想获取更多内容,请关注海数据公众号。
本期分享到这里,我们会每天更新内容,咱们下期再见,期待您的再次光临。有什么建议,比如想了解的知识、内容中的问题、想要的资料、下次分享的内容、学习遇到的问题等,请在下方留言。如果喜欢请关注。