大数据中的统计学基础——Day1

本章内容

  1. 统计学分类
  2. 均值、中位数、众数
  3. 方差、标准差
  4. 直方图
  5. 箱线图
  6. 茎叶图
  7. 线图
  8. 柱形图
  9. 饼图

一、统计学的分类

描述统计学:

使用特定的数字或图表来体现数据的集中程度和离散程度。例:每次考试算的平均分,最高分,各个分段的人数分布等,也是属于描述统计学的范围。

推断统计学:

根据样本数据推断总体数据特征。例:产品质量检查,一般采用抽检,根据所抽样本的质量合格率作为总体的质量合格率的一个估计。

区别在于是否使用了全部的数据来描述这一批数据

二、均值、中位数、众数

这三个值描述了一组数据的集中趋势。对于一组数据,如果只容许使用一个数字去代表这组数据,那么这个数字应该如何选择??——选择数据的中心,即反映数据集中趋势的统计量。

均值:

算术平均数,描述平均水平。

中位数:

—将数据按大小排列后位于正中间的数描述,描述中等水平。 若处于中间位置的数据有两个(也就是数据的总个数为偶数时),中位数为中间两 个数的算术平均数。

众数:

数据中出现最多的数,描述一般水平。一组数据中,可能会存在多个众数,也可能不存在众数。众数丌仅适用于数值型数据,对于非数值型数据也同样适用。{苹果,苹果,香蕉,橙,橙,橙,桃}这一组数据,没有什么均值中位数可言,但是存在着众数——橙。

总结:
对于不同类型的数据,三个值的位置变化:

三、方差、标准差

这两个量解决的是如何描述一组数据的离散程度。

极差:最大值 - 最小值

也是一种描述离散程度的量,但是存在不足:如:A——1 2 5 8 9,B——1 4 5 6 9。这两组数据的离散程度明显是不一样的。

方差:

在统计学上,更常使用方差来描述数据的离散程度,数据离中心越远越离散。

简化方差公式:

方差有总体方差与样本方差之分:

为了保证衡量离散程度的量与原数据单位相同,使用标准差来避免因单位平方引起的度量问题。与方差一样,标准差越大数据越分散。

四、直方图

以学生成绩为例:

根据频数分布表,可以画出频数直方图。频数作为纵坐标,成绩作为横坐标。

除了频数直方图,还有另一种直方图——频率直方图。与频数直方图相比,频率直方图的纵坐标有所改变,使用了频率/组距。

频率=频数/总数;组距就是分组的极差,这里组距是10(可以是100-90=10,也可以使90-80= 10等)

五、箱线图

  • 下四分位数:Q1,将所有数据按照从小到大的顺序排序排在第25%位置的数字
  • 上四分位数:Q3,将所有数据按照从小到大的顺序排序排在第75%位置的数字
  • 四分位距:IQR,等于Q3-Q1,衡量数据离散程度的一个统计量
  • 异常点:小于Q1-1.5IQR或大于Q3+1.5IQR的值
  • 上边缘:除异常点以外的数据中的最大值
  • 下边缘:除异常点以外的数据中的最小值
假设有如下一组数据:

53 53 61 61 63 65 67 67 69 69 69 70 70 71 74 75 75 76 77 78 79 80 81 81 81 81 82 84 85 86 87 87 87 88 89 90 91 91 94 95

对于上述数据,Q1=69;Q3=86.5;IQR=86.5-69=17.5; Q1-1.5IQR=42.75; Q3+1.5IQR=112.75;所以没有异常点。上边缘就是95,下边缘就是52

示例:
简单画法:
数据:8 2 3 7 4 9 6 9 4 3
1. 排序:2 3 3 4 4 6 7 8 9 9
2. 找出中位数:(4+6)/2=5
3. 分别找出前半部分不后半部分的中位数——下四分位数不上四分位数:3不8
4. 判断异常点:3-1.5*(8-3)=-4.5;8+1.5*(8-3)=15.5;没有异常点
5. 找出最大值不最小值:2不9
6. 在3到8之间画一个箱子,分别用箭头指向2,9

六、茎叶图

七、线图

八、柱形图

柱形图:显示一段时间内的数据变化或显示各项之间的比较情况

与直方图的区别:
  • 从横坐标看,直方图是同一个变量的分组划分,而柱形图则是不同的组别
  • 从作用上看,直方图用于显示一组数据的分布情况,而柱形图则是用于比较不同组别的数据差异

九、饼图

根据各项所占百分比决定在饼图中的扇形面积。简单易懂,通俗明了,可以更加形象地看出各个项目所占的比例大小。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,458评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,030评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,879评论 0 358
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,278评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,296评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,019评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,633评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,541评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,068评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,181评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,318评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,991评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,670评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,183评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,302评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,655评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,327评论 2 358