1、基石:大数定律和中心极限定律
大数定理。不管是强大数定理还是弱大数定理,都表达着这样一个意思:当样本数量足够大时,这些样本的均值无限接近总体的期望。
中心极限定理。不管样本总体服从什么分布,当样本数量足够大时,样本的均值以正态分布的形式围绕总体均值波动。中心极限定理的表达方式可以有多种,我这里只是其中一种。
2、什么是卡方分布、t分布和F分布
有很多统计推断是基于正态分布的假设,以标准正态分布变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有显式表达式,它们被称为统计中的“三大抽样分布”。这三大抽样分布即为著名的卡方分布,t分布和F分布。
为了应用方便,常将一般的正态变量X通过u变换[(X-μ)/σ]转化成标准正态变量u,以使原来各种形态的正态分布都转换为μ=0,σ=1的标准正态分布(standard normaldistribution),亦称u分布。根据中心极限定理,通过抽样模拟试验表明,在正态分布总体中以固定 n 抽取若干个样本时,样本均数的分布仍服从正态分布,即N(μ,σ)。所以,对样本均数的分布进行u变换,也可变换为标准正态分布N (0,1)。
2.1 卡方分布
大量抽样的平方和服从卡方分布
2.2 t分布
对一个样本大量抽样,另外一个样本知道它服从正态分布,假设它们两个相互独立
2.3 F分布
对两个相互独立的样本分开大量抽样,看它们的卡方分布的比值
2.4 伽马函数
伽马函数在三个抽样分布的表达式中都有出现,那么伽马函数是干什么的呢,可以先从泊松分布理解起:
2.4.1 泊松分布与伽马函数
因此Possion公式的直观意义就是:
已知单位时间内平均出生λ \lambdaλ个婴儿, 得到单位时间内出生k个婴儿的概率。
如果将k看成是一个变量, Possion公式就是单位时间内出生婴儿个数的概率分布。
直观理解,当然是单位时间出生λ \lambdaλ个婴儿的概率最大。
————————————————
在Poisson分布中,λ是一个已知数,是一个常数,
如果我们把λ看成一个变数,假设是x
那么得到的分布就叫Gamma分布,显然Gamma比Poisson更高一维的分布。
————————————————
由此可见,Gamma函数是一个关于x和k的二维概率分布。x是单位时间内事件发生的平均次数,k是单位时间内事件发生的某一特定次数,得到类似于下图,可见,它是一个指数分布,k与越接近,概率越大,在k与x相等的地方,概率达最大值。(如果将x固定一个常数,就是Poisson分布。)
3 、应用场景
假设检验的基本思想:
若对总体的某个假设是真实的,那么不利于或者不能支持这一假设的事件A在一次试验中是几乎不可能发生的。如果事件A真的发生了,则有理由怀疑这一假设的真实性,从而拒绝该假设。
3.1 正态检验:Z检验【5】
利用观测数据判断总体是否服从正态分布的检验称为正态性检验,它是统计判决中重要的一种特殊的拟合优度假设检验。
3.1.1 直方图初判
判断是否是我们熟悉的钟型曲线
3.1.2 QQ图判断
通过把测试样本数据的分位数与已知分布相比较,从而来检验数据的分布情况
QQ图是一种散点图,对应于正态分布的QQ图,就是由标准正态分布的分位数为横坐标,样本值为纵坐标的散点图
参考直线:四分之一分位点和四分之三分位点这两点确定,看散点是否落在这条线的附近
3.1.3 K - S检验
python代码:
u = df['value'].mean()# 计算均值
std = df['value'].std()# 计算标准差
stats.kstest(df['value'], 'norm', (u, std))
》》》KstestResult(statistic=0.1590180704824098, pvalue=0.3066297258358026)
ks检验一般返回两个值:D和p值
其中D表示两个分布之间的最大距离,所以D越小,因为这两个分布的差距越小,分布也就越一致
p值,也就是假设检验里面的p值,可以理解为这个样本发生的可能性有多大。
那么原假设是什么呢,原假设是“待检验的两个分布式同分布”。假设检验常用的判断标准是5%,在假设检验里叫做“显著水平”,用符号α
如果p值大于0.05,(当然,你也可以选择α = 0.01或者0.10,这都取决于你的要求),那么就不能拒绝原假设。所以p越大,越不能拒绝原假设,两个分布越是同分布
补充:
1)两个分布之间的最大距离D是怎么计算的:转化为标准正态分布后,相同x下,y值与标准正态分布的值的差
2)假设检验里,p和α的关系:
p是计算出来的,α是人工设定的,P值 < α(0.007<0.05) 说明:
我们在Ho的假设成立的条件下,做了一次实验,Ho发生的概率就很小(比α都小)。 这是不可能的。 所以拒绝Ho 。 反而接受H1.【7】
3.2 卡方检验
χ2检验方法主要是用来检验频数问题的,即检验各类实际观察的频数是否显著不同于建设的期望频数。使用χ2检验需要满足以下的假定:
1、每次的试验是独立进行的;如果试验有k个类别,那么每次试验的结果是k个类别中的某一个;(假设多个变量之间不相关)
2、每次试验时每个类别发生的频率都保持不变。(根据假设计算得出每种情况的理论值,根据理论值与实际值的差别,计算得到卡方值 及自由度)
χ2检验只适用于频数检验,而不适用于比率的检验。
χ2检验除了可以对假设的频数进行检验外,还可以对各种假设的分布进行检验。
其实卡方检验是英文Chi-Square Test 的谐音。在大数据运营场景中,通常用在某个变量(或特征)值是不是和应变量有显著关系。
3.2.1 什么是卡方检验【2】:
卡方检验就是检验两个变量之间有没有关系。
以运营为例:
卡方检验可以检验男性或者女性对线上买生鲜食品有没有区别;
不同城市级别的消费者对买SUV车有没有什么区别;
如果有显著区别的话,我们会考虑把这些变量放到模型或者分析里去。
3.3 t检验
t 统计量是英国化学家、数学家、统计学家 William Sealy Gosset提出的,当年他在爱尔兰的吉尼斯酒厂(这个酒厂还有个很牛的事儿,它的老板编著了现今著名的《吉尼斯世界纪录》)工作时,酒厂禁止其将研究成果公开发表,以免泄露秘密,迫不得已William Sealy Gosset以笔名“The Student”发表研究成果,t统计量及t分布的命名就是源于改笔名。【8】
3.3.1 场景引入
左边的是采用工艺A种植的麦子,右边的是采用工艺B种植的麦子,两边各种100株麦子。
现在发现左边麦田中平均每株麦穗上有100粒麦子,右边麦田中平均每株麦穗上有120粒麦子,这说明啥?说明采用工艺B能得到更高的麦子产量对不?
咱们外行可能会这么看,但是人家专业的可不轻易这么认为。这是采用小面积的试验田种出的麦子,一个是量少,不足以说明问题(想想咱们的大数定理),另一个是无法保证除工艺区别外其它因素都一样。那么这20粒麦子的差值能不能说明工艺的优劣问题呢?
t检验就是用来处理这样的问题。
现在先回到单边假设,这20的差值是不是在工艺A下麦子平均产量的正常波动范围内?
1)单总体情况。这种情况下 t 统计量的定义为:
(关于标准误的进一步理解可以参考资料【】)
3.4 F检验【10】
F分布的应用——方差分析
3.4.1 t检验的局限性
当研究中出现两个以上的平均数时,用Z检验和t检验会有以下一些不足。
1.比较的组合次数增多
如上所述,若把三所学校成对比较,则需对A校与B校,B校与C校,C校与A校做检验,这时我们所做的检验是三次而不是一次。如果一次研究10个学校,其检验数就会达到45个之多。事实上我们只需要一个可以让我们同时处理两种以上条件的单独检验。
2.降低可靠程度
因为对数据做得Z检验或t检验越多,我们更容易犯Ⅰ型错误。在一个检验中,α=0.05,意味着有0.05的可能性犯Ⅰ型错误,即有1-α=0.95的概率不犯Ⅰ型错误。如果我们做两次检验,每次都为0.05的显著性水平,那么不犯Ⅰ型错误的概率就变为0.95×0.95=0.90。所以说采用Z检验或t检验随着均数个数的增加,其组合次数增多,从而降低了统计推论可靠性的概率,增大了犯错误的概率。
若想要若干检验的总显著性水平仍为0.05的话,一种做法就是为每一独立检验设置更为保守的显著性水平。譬如,若进行5次检验,为了使总的犯Ⅰ型错误的风险仍为0.05,则每一个独立检验的显著性水平需设为p=0.01(因为1-0.99×0.99×0.99×0.99×0.99=0.05)。另一种可替代的方法就是设计一种能使总显著性水平始终0.05的单一检验,即方差分析。
3.缺少综合或整体信息
两个以上的平均数检验中若仍采用Z检验或t检验都只提供了两个组所提供的信息,而忽略了其余的综合信息。然而在许多情况下这些被忽视的信息可能对检验结果产生更大的影响力。同时在十次检验之后所得到只是零散的信息,并非从总体来分析几种不同条件的效果,也难以获得几种不同条件的直接答案。
3.4.2 方差分析
所谓方差分析(analysis of variance)就是对多个平均数进行比较的一种统计方法,又称变异数分析,即ANOVA
以下三条假设在进行方差分析时是非常关键的。否则易产生错误的统计结论。
1.总体分布的正态性
2.各个实验组的方差齐性。方差分析要求各总体的方差或标准差相同。譬如,某校在实验班和普通班进行教学方法的实验,以新方法施教于实验班,以传统方法施教于普通班。实验结束后发现两班成绩差异非常显著,然而这种差异究竟是教法不同造成的,还是两班学生原有学习水平不同引起的,我们无法回答这个问题。因此,方差分析前需对各样本的方差做一致性检验,称方差齐性检验,只有满足了方差齐性的条件才可做方差分析。
3.变异具有加可性。方差分析是将事物的总变异分解为各个不同变异来源,分解后的各部分变异是相互独立,相加后又构成总变异。
广义的方差分析包括了方差的齐性检验,F检验和多重比较(逐对平均数的比较)。狭义的方差分析仅指F检验
例子:
4 总结
不同检验构造了不同的统计量,这些统计量对应服从几大分布,所以这几大分布才如此重要。几大分布中,伽马函数的性质起到了重要的作用。
Z检验:检查是否服从正态分布(python)
卡方检验:检验各类实际观察的频数是否显著不同于建设的期望频数,检验两个变量是否存在关系(投色子)
t检验:判断两类样本在某一变量上的均值差异是否显著(两块大麦田)
F检验:检验几个分布的方差是否相同(学生的教学方法)
其它:
Z就是正态分布,方差已知情况下求均值是Z检验。
卡方分布主要用于检验样本是否偏离了期望,例如偏离了期望的分布(拟合优度检验),期望的比例(列联表)等。均值方差都未知求方差是X^2检验
t分布用于检验均值是否不同。方差未知求均值是t检验(样本标准差s代替总体标准差R,由样本平均数推断总体平均数)
F分布用于检验方差是否不同。两个正态分布样本的均值方差都未知情况下求两个总体的方差比值是F检验。
三者都可以用于回归方程系数的检验。
补充:统计自由度概念【11】
非常棒的解释~补充一下:n*m的变量矩阵(n个变量造成了m种结果),它的自由度为(n-1)*(m-1),从矩阵的角度可以理解为一个n*m的矩阵,共有n*m个元素,由于行和和列和已知,所以有m+n个约束条件,同时行和之和与列和之和相等,相当于有一个约束条件可以被其它约束条件表示。所以剩下的自由度为:n*m-(n+m-1)= (n-1)(m-1)
5、参数检验与非参数检验
1、
参数检验:假定数据服从某分布(一般为正态分布),通过样本参数的估计量(x±s)对总体参数(μ)进行检验,比如t检验、u检验、方差分析。
非参数检验:不需要假定总体分布形式,直接对数据的分布进行检验。由于不涉及总体分布的参数,故名「非参数」检验。比如,卡方检验。
2、参数检验的集中趋势的衡量为均值,而非参数检验为中位数。
3、参数检验需要关于总体分布的信息;非参数检验不需要关于总体的信息。
4、参数检验只适用于变量,而非参数检验同时适用于变量和属性。
5、测量两个定量变量之间的相关程度,参数检验用Pearson相关系数,非参数检验用Spearman秩相关。
简而言之,若可以假定样本数据来自具有特定分布的总体,则使用参数检验。如果不能对数据集作出必要的假设,则使用非参数检验。
参考文献
【1】https://blog.csdn.net/anshuai_aw1/article/details/82735201 三大抽样分布:卡方分布,t分布和F分布的简单理解
【2】https://www.jianshu.com/p/807b2c2bfd9b 结合日常生活的例子,了解什么是卡方检验
【3】https://blog.csdn.net/arielle512/article/details/81234501 相关性度量的几种方法-卡方检验、相关系数、信息增益.
【4】https://blog.csdn.net/qq_42828404/article/details/81916167 几大分布:正态分布、卡方分布、t分布、F分布整理
【5】https://www.cnblogs.com/shengyang17/p/9644431.html 数据特征分析:4.正态分布与正态性检验
【6】https://blog.csdn.net/u012526003/article/details/84455456 统计分布的距离/相似性计算
【7】https://blog.csdn.net/u012052268/article/details/81592368 理解假设检验与P值
【8】https://www.cnblogs.com/hgz-dm/p/10886155.html t分布与t检验的一点理解
【9】https://www.jianshu.com/p/637d622861bf 标准差与标准误
【10】https://blog.csdn.net/suzyu12345/article/details/80135732 数据统计基础之F分布及其应用
【11】https://www.jianshu.com/p/0032087b9dbb 用可视化思维解读统计自由度