机器学习-基础统计

学了大半个月的统计,这里总结一下,顺便整理一遍。

首先定义一些名词,样本与总体。假设有一个关于某大学学生对食堂满意度的问卷调查,全体学生为500人,要求全校学生都要做一份问卷。随机从全校学生抽取10人做访问问卷。那么这里的总体的全校学生,样本是10人。

标准偏差与样本标准偏差(标准误差):

首先标准偏差是针对总体的,样本标准偏差是对样本的,从名字就能看出,他们分别代表什么意思呢,我们来看看公式


标准偏差
标准误差

解释一下∑是求和的意思,所以上部分可以分解成这样


等于


X拔(上面一横的)是平均值,x1~Xn为每个独立样本的值,下面的n为样本量,

公式意思是求每个独立样本与平均值直接的差距,至于为什么要平方,再开根号,就是样本值有可能小于均值导致为负数,所以要平方,去除负数,再开根号将值还原。

除以n表示平均每个样本的标准差,为什么样本标准偏差要除以n-1呢,因为抽样有差异性,所要减去一。

假设我们的问卷调查满分为10分,最低分为0分,随机得到10张问卷分数分别为【4,5,6,5,8,4,5,8,9,6】

假设500人的问卷调查结果平均值为6,我们也算出样本平均值为6,根据上面公式我们可以得知样本标准偏差约为3.1。(500人的随机数我懒得做出来,有兴趣的可以自己尝试)

正态分布与Z临界值:


u为平均值,θ表示标准偏差,我们会发现68%的值会在正负一个θ之内,接近96的值会在正负两个θ之内。

假设均值u=6,θ=3.1,我们可以得知正负一个标准偏差在X轴上分别为9.1和2.9,两个标准偏差值分别为12.2和-0.2。

Z临界值为任何值距离平均值的标准偏差数,公式为Z = (x-u)/θ

假设我们得到一份问卷调查为8,Z值约为0.645,我们可以在X轴上标出该Z临界值,然后我们看看Z Table



该图可以计算出,Z临界值为多少时,小于该Z临界值的正态分布面积百分比为多少,因为我们的Z值为0.645,所以对应的小于该值面积百分比为0.7389(面积百分比是0~1)

假设我们不知道样本的值,只知道样本量为10,总体均值为6,标准偏差为3.1,我们怎么知道样本的标准偏差呢?

这里我们用到一个公式 :


S为标准误差,n为样本量,SE就是要求的样本标准偏差

有了这个公式我们就可以在不知道详细样本数据的时候估算样本标准偏差。

根据Z Table我们也可以根据百分比去判断Z值


例如我们定义红色区域为α,α=5%,即0.05,那么Z的临界值为多少?因为α为0.05,剩下橙色的为0.95,所以通过Z Table可以得知最接近Z临界为1.64。这叫单尾验证。双尾验证比这个复杂一点看下图:


同样地α=5%,但是双尾验证的话,两边要摊分5%,所以两边分别是0.025,从Z Table可以找到Z临界值为正负1.96

T分布和检验:

以上都是我们知道总体参数(总体的平均值u,标准偏差θ)的情况下才能得出的结果,但大多数情况下我们只知道样本,或者几个样本,这些样本可以是独立,也可以是非独立的。只根据样本得出的分布是T分布,该分布比较容易跟总体分布有较大的误差。

T分布通常用自由度来定义,什么是自由度?举个例子,我们随意挑选三个整数(可以为负数),让这三个数加起来为10,

假设我们第一个数是100,第一个通常没限制,是自由的

第二个数同样是自由的,我们随便选个111

但第三个数不能自由,因为三个数加起来必须等于10,所以第三个数只能是-201

根据这个例子,随意挑选三个数,3是n,我们只能自由挑选2个,所以自由度边际总数为n-1。

对于T分布,我们需要新的表格 T表格


T表格左边是自由度,上面表示大于T临界值面积百分比。T分布的单尾和双尾验证是跟上面是差不多的,这里就不叙述了。

跟Z值一样,T统计量值也可以通过公式求出:


x拔为样本均值,uo为总体均值,下面为样本标准偏差(标准误差)

当对比均值时,衡量效应大小常见标准之一就是Cohen's d,公式为:


M1为总体均值,M2为样本均值,SD为标准误差

确定系数r^2 ,一般用来衡量两个变量之间的关系程度,公式为r^2 =  t²/(t²+df)。其中df为自由度。

假设与检验:

首先假设有两种,零假设和对立假设,我们用Ho表示零假设,Ha表示对立假设。例子我们研发一种新药物对付癌症,我们想知道这种新药对比旧药对患者治疗究竟有没有显著提高,我们进行实验得出结果。

这里我们的零假设就是:新药对比旧药,治疗效果差不多。对立假设为:新药效果对比旧药更加好,或者比旧药差很多。可以用下图来表示


u表示干预前的总体参数,uI表示干预后的

两个样本的时候如何计算标准误差:

以上所说的都是单个样本的情况,如果我们有两个独立样本,我们应该如何求出独立样本的新标准误差呢?

假设两个样本的标准偏差分别为S1,S2,样本量分别为n1,n2,那么我们可以用新的标准误差公式计算出标准误差:


首先这个公式怎么来的呢?首先我们要从两个样本的标准差求出一个新的标准,用下面公式


然后根据之前所知道的标准误差公式,得出下面推导过程



两个样本的量差别很大时候:

以上假设都是在两个样本量大致相同的时候(n1与n2大致相同),假如一个样本量为100,一个样本量为10,两本量差距太大,我们需要合并方差来纠正样本量


合并方差


得出合并方差之后再用它计算出校正的标准误差:


校正标准误差


以上纯碎个人总结,只是方便自己以后回忆一下。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容