学了大半个月的统计,这里总结一下,顺便整理一遍。
首先定义一些名词,样本与总体。假设有一个关于某大学学生对食堂满意度的问卷调查,全体学生为500人,要求全校学生都要做一份问卷。随机从全校学生抽取10人做访问问卷。那么这里的总体的全校学生,样本是10人。
标准偏差与样本标准偏差(标准误差):
首先标准偏差是针对总体的,样本标准偏差是对样本的,从名字就能看出,他们分别代表什么意思呢,我们来看看公式
解释一下∑是求和的意思,所以上部分可以分解成这样
等于
X拔(上面一横的)是平均值,x1~Xn为每个独立样本的值,下面的n为样本量,
公式意思是求每个独立样本与平均值直接的差距,至于为什么要平方,再开根号,就是样本值有可能小于均值导致为负数,所以要平方,去除负数,再开根号将值还原。
除以n表示平均每个样本的标准差,为什么样本标准偏差要除以n-1呢,因为抽样有差异性,所要减去一。
假设我们的问卷调查满分为10分,最低分为0分,随机得到10张问卷分数分别为【4,5,6,5,8,4,5,8,9,6】
假设500人的问卷调查结果平均值为6,我们也算出样本平均值为6,根据上面公式我们可以得知样本标准偏差约为3.1。(500人的随机数我懒得做出来,有兴趣的可以自己尝试)
正态分布与Z临界值:
u为平均值,θ表示标准偏差,我们会发现68%的值会在正负一个θ之内,接近96的值会在正负两个θ之内。
假设均值u=6,θ=3.1,我们可以得知正负一个标准偏差在X轴上分别为9.1和2.9,两个标准偏差值分别为12.2和-0.2。
Z临界值为任何值距离平均值的标准偏差数,公式为Z = (x-u)/θ
假设我们得到一份问卷调查为8,Z值约为0.645,我们可以在X轴上标出该Z临界值,然后我们看看Z Table
该图可以计算出,Z临界值为多少时,小于该Z临界值的正态分布面积百分比为多少,因为我们的Z值为0.645,所以对应的小于该值面积百分比为0.7389(面积百分比是0~1)
假设我们不知道样本的值,只知道样本量为10,总体均值为6,标准偏差为3.1,我们怎么知道样本的标准偏差呢?
这里我们用到一个公式 :
有了这个公式我们就可以在不知道详细样本数据的时候估算样本标准偏差。
根据Z Table我们也可以根据百分比去判断Z值
例如我们定义红色区域为α,α=5%,即0.05,那么Z的临界值为多少?因为α为0.05,剩下橙色的为0.95,所以通过Z Table可以得知最接近Z临界为1.64。这叫单尾验证。双尾验证比这个复杂一点看下图:
同样地α=5%,但是双尾验证的话,两边要摊分5%,所以两边分别是0.025,从Z Table可以找到Z临界值为正负1.96
T分布和检验:
以上都是我们知道总体参数(总体的平均值u,标准偏差θ)的情况下才能得出的结果,但大多数情况下我们只知道样本,或者几个样本,这些样本可以是独立,也可以是非独立的。只根据样本得出的分布是T分布,该分布比较容易跟总体分布有较大的误差。
T分布通常用自由度来定义,什么是自由度?举个例子,我们随意挑选三个整数(可以为负数),让这三个数加起来为10,
假设我们第一个数是100,第一个通常没限制,是自由的
第二个数同样是自由的,我们随便选个111
但第三个数不能自由,因为三个数加起来必须等于10,所以第三个数只能是-201
根据这个例子,随意挑选三个数,3是n,我们只能自由挑选2个,所以自由度边际总数为n-1。
对于T分布,我们需要新的表格 T表格
T表格左边是自由度,上面表示大于T临界值面积百分比。T分布的单尾和双尾验证是跟上面是差不多的,这里就不叙述了。
跟Z值一样,T统计量值也可以通过公式求出:
当对比均值时,衡量效应大小常见标准之一就是Cohen's d,公式为:
确定系数r^2 ,一般用来衡量两个变量之间的关系程度,公式为r^2 = t²/(t²+df)。其中df为自由度。
假设与检验:
首先假设有两种,零假设和对立假设,我们用Ho表示零假设,Ha表示对立假设。例子我们研发一种新药物对付癌症,我们想知道这种新药对比旧药对患者治疗究竟有没有显著提高,我们进行实验得出结果。
这里我们的零假设就是:新药对比旧药,治疗效果差不多。对立假设为:新药效果对比旧药更加好,或者比旧药差很多。可以用下图来表示
两个样本的时候如何计算标准误差:
以上所说的都是单个样本的情况,如果我们有两个独立样本,我们应该如何求出独立样本的新标准误差呢?
假设两个样本的标准偏差分别为S1,S2,样本量分别为n1,n2,那么我们可以用新的标准误差公式计算出标准误差:
首先这个公式怎么来的呢?首先我们要从两个样本的标准差求出一个新的标准,用下面公式
然后根据之前所知道的标准误差公式,得出下面推导过程
两个样本的量差别很大时候:
以上假设都是在两个样本量大致相同的时候(n1与n2大致相同),假如一个样本量为100,一个样本量为10,两本量差距太大,我们需要合并方差来纠正样本量
得出合并方差之后再用它计算出校正的标准误差:
以上纯碎个人总结,只是方便自己以后回忆一下。