数据分析师必备的统计学知识,都在这里了

数据分析师,无疑是数据时代最耀眼的职业之一,而统计学,又是数据分析师必备的基础知识。
正好我正在参加优达学城《数据分析师》课程,刚学习完“统计学”部分,这里就跟大家分享下。本文内容是以我们数据分析3期班优等生计划的“鱼头”导师的直播课讲义为基础整理而来,感谢“鱼头”老师。

知识点汇总:

1.集中趋势(Central Tendency)
2.变异性(Variability)
3.归一化(Standardizing)
4.正态分布(Normal Distributions)
5.抽样分布(Sampling Distributions)
6.估计(Estimation)
7.假设检验(Hypothesis testing)
8.T检验(T-test)

一、集中趋势(Central Tendency)

1.众数
出现频率最高的数;
2.中位数
把样本值排序,分布在最中间的值;
样本总数为奇数时,中位数为第(n+1)/2个值;
样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
3.平均数
所有数的总和除以样本数量;

小结:
现在大家接触最多的概念应该是 平均数,但有时候,平均数会因为某些极值(Outlier)的出现收到很大影响;
举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;

二、变异性(Variability)

1.四分位数
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3
2.四分位距 IQR=Q3-Q1

四分位数.jpg

3.异常值(Outlier):小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);
对于异常值,我们在处理时需要剔除

4.方差(Variance)

2方差variance.jpg

5.平方偏差(Standard Deviation)
-方差的算术平方根

6.贝塞尔矫正:修正样本方差
-问:为什么要用贝塞尔矫正?
实际在计算方差时,分母要用n-1,而不是样本数量n,原因如下

3贝塞尔矫正.jpg

三、归一化(Standardizing)

1.标准分数(Z-score)

  • 一个给定分数 距离 平均数 多少个标准差?
  • 标准分数是一种可以看出某分数在分布中相对位置的方法。
    标准分数能够真实的反映一个分数距离平均数的相对标准距离。
    4归一化standardizing.jpg
四、正态分布(Normal Distributions)

1.定义:随机变量X服从一个数学期望为μ,方差为σ²的正态分布,记为N(μ,σ²)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;

5正态分布normal distribution.jpg

2.Z-表格的查阅

五、抽样分布(Sampling Distributions)

1.中心极限定理(Central Limit Theorem)

  • 设从均值为μ,方差为σ²的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ²/n的正态分布

2.抽样分布(Sampling Distributions)

  • 总体共有N个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有N·n种抽法,即可以组成N·n不同的样本,在不重复抽样时,共有N·n个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。数理统计学的相关定理已经证明:在重置抽样时,样本均值的方差为总体方差的1/n

视频中的例子:

  • 48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。


    6抽样分布sampling distributions.jpg
六、估计(Estimation)

1. 误差界限(Margin of error)

7误差界限margin of error.jpg

2. 置信度(Confidence level)

  • We are some % sure the true population parameter falls within a specific range
    我们有百分之多少确信总体中的值落在一个特定范围内;
    一般情况下,取95%的置信度就可以;

3. 置信区间(Confidence Interval)

8置信区间.jpg

七、假设检验(Hypothesis testing)

9假设检验hypothesis testing.jpg

1. 问题:什么是显著性水平?
• 显著性水平是估计总体参数落在某一区间内,可能犯错误的概率,也就是Type I Error
• A Type II Error is when you fail to reject the null when it is actually false.

9假设检验-零假设和对立假设.jpg
9.3假设检验-案例:鸡.jpg

9.4假设检验-案例:鸡.jpg

作者:zhengweiyu 原文地址:https://discussions.youdaxue.com/t/topic/29031

2. 如何选择备选检验和零假设?
一个研究者想证明自己的研究结论是正确的,备择假设的方向就要与想要证明其正确性的方向一致;
同时将研究者想收集证据证明其不正确的假设作为原假设H0
推荐阅读:http://bbs.pinggu.org/thread-1071082-1-1.html

八、T检验(T-test)

1. 主要用于样本含量较小(例如n<30),总体标准差σ未知的正态分布。
流程如下:
![10.t检验.jpg](http://upload-images.jianshu.io/upload_images/1247025-c6c89b03be154d55.jpg?imageMogr2/auto-orient/ strip%7CimageView2/2/w/1240)

  • 是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著;
  • 一般检验水准α取0.05即可;
  • 计算检验统计量的方法根据样本形式不同;

2. 独立样本T检验:

  • 现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。


    10.1 t检验.jpg
  • 问题:为什么T检验查表时候要n-1?
    样本均值替代总体均值损失了一个自由度

3. 配对样本t检验:

  • 分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对


    10.3 t检验-配对样本.jpg
  • 样本误差(Standard Error)

    10.4 t检验-样本误差.jpg

10.5 t检验-样本误差2.jpg

4. Pooled variance 合并方差

  • 当样本平均数不一样,但实际上认为他们的方差是一样的时候,需要合并方差
  • 不要被公式吓到,他的本质是两个样本方差加权平均
10.6 t检验-合并方差1.jpg

10.6 t检验-合并方差2.jpg

5. Cohen’s d

  • 效应量(effect size):提示组间真正的差异占统计学差异的比例,值越大,组间差异越可靠。
10.7 t检验-cohen's d.jpg

10.7 t检验-cohen's d2.jpg

ps:******最后,无耻的打个小广告啊,嘿嘿,优达学城(www.youdaxue.com)是学习数据科学,人工智能非常好的平台,我也正在上面学习,如果你要学习的话,首次付费时可以输入我的邀请码:B88ABAB8,你就可以减免300元**哦!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,948评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,371评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,490评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,521评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,627评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,842评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,997评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,741评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,203评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,534评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,673评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,339评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,955评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,770评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,000评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,394评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,562评论 2 349

推荐阅读更多精彩内容