我的转行数据分析师专栏-2描述统计分析

导语:数据分析师日常工作接触离不开数据,甚至大部分工作时间都会面对数据所体现的各种问题,单纯看数据并没有具体作用,带着业务目的去挖掘分析才会让数据显得更有价值,就需要学习描述统计分析的一些知识。

本篇内容主要根据3大主题,去深入了解一下描述统计分析:

1、学习统计对我有什么意义

(1)首当其冲的是,转行数据分析师必要懂统计学原理:描述统计和推断统计

(2)职场、生活、娱乐、创业都离不开统计学的魅力,例如

你工作2年了,工资处于行业的什么水平;

你一生中每年摔倒的次数分布;

手机记录着你一天使用每个APP的分布时间(该时候提高一下学习软件占用的时间);

人的一生中平均所遇到的失败次数;

(3)进一步了解世界变化的原理,看世界的视角会有所变化


2、描述统计中常用描述数据集的指标(平均数、四分位数、标准差、标准分)

学习这些指标前,先来了解什么是描述统计学:

描述统计学是研究如何取得反映客观现象的数据 ,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。描述统计学内容包括统计数据的收集方法、数据的加工处理方法、数据的显示方法、数据分布特征的概括与分析方法等。

平均数

平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。

优势:在统计中算术平均数常用于表示统计对象的一般水平,它是描述数据集中位置的一个统计量。既可以用它来反映一组数据的一般情况、和平均水平,也可以用它进行不同组数据的比较,以看出组与组之间的差别。

局限性:易受极端值的影响,这里的极端值是指偏大或偏小数,当出现偏大数时,平均数将会被抬高,当出现偏小数时,平均数会降低,例如:一间企业里,有老板,高层,中层和基层,如果算这间企业平均月薪水平在30000,高层月薪100000,而作为基层的你拿着4000月薪,直接跟企业平均工资来对比,并无太大意义;同时单纯看企业平均月薪,也体现不到一个平均水平情况

公式:

四分位数

四分位数也称四分位点,是指在统计学中把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值。多应用于统计学中的箱线图绘制。它是一组数据排序后处于25%和75%位置上的值。四分位数是通过3个点将全部数据等分为4部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数(Q2),因此通常所说的四分位数是指处在25%位置上的数值(称为下四分位数,Q1)和处在75%位置上的数值(称为上四分位数,Q3)

优势:与数据的排列位置有关,某些数据的变动对它没有影响;它是一组数据中间位置上的代表值,不受数据极端值的影响,常用于比较不同类别数据的整体情况和识别出可能的异常值。

局限性:作为一组数据的代表,可靠性比较差,因为它只利用了部分数据;

实例1(当项数为奇数时)-数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36

由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49,一共11项

Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9

Q1 = 15,Q2 = 40,Q3 = 43

实例2(当项数为偶数时)-数据总量: 7, 15, 36, 39, 40, 41

由小到大排列的结果: 7, 15, 36, 39, 40, 41,一共6项

数列项为偶数项时,Q2为该组数列中间两个数字和的平均值,Q1在第一与第二个数字之间, Q3在第五与第六个数字之间,

Q1 = 0.75*15+0.25*7 = 13,Q2 = (36+39)/2= 37.5,Q3 = 0.25*41+0.75*40 = 40.25.

实例3(当项数为偶数时)-分析就餐人员与餐馆的距离,数据单位为公里

标准差

简单来说,标准差是一组数据平均值分散程度的一种度量。一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

优势:告诉我们数据的波动性有多大,例如两个班的学生分数,标准差的大小能说明两个班的学生成权绩谁的波动大,也就是哪个班的学生成绩稳定些,标准差大的不稳定些,标准差小的稳定些

局限性:如果两个数据差别比较大,那么就无法比较,这时可以用变异系数可以弥补这个缺点

什么是变异系数呢

当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是原始数据标准差与原始数据平均数的比。

标准差计算方式:

数据集: 

平均值: 

标准差 

变异系数计算方式:

标准分

也叫z分数,是一种具有相等单位的量数。它是将原始分数与团体的平均数之差除以标准差所得的商数,是以标准差为单位度量原始分数离开其平均数的分数之上多少个标准差,或是在平均数之下多少个标准差。

数据集: 

平均值: 

标准差: 

标准分: 

 (  为具体的某个数值)

最后一张图总结刚才所介绍4个指标的大致描述

3、熟悉数据集,尝试从数据集中分析哪些业务问题?

数据集链接:腾讯文档​docs.qq.com

购买信息表

(1)每个商品一级分类下,哪个二级分类的商品卖得更多

(2)每个分类下,爆款商品是哪一个(购买数量越大,就是爆款)

(3)每个一级分类、二级分类、商品,在不同时间段购买情况的分布

(4)每个商品一级分类下,二级分类的销售分布情况

(5)找出每个分类下的淡旺季购买情况

婴儿信息表:

(1)婴儿总体的男女占比

(2)婴儿不同年龄段的数量分布情况

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,185评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,652评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,524评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,339评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,387评论 6 391
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,287评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,130评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,985评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,420评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,617评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,779评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,477评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,088评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,716评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,857评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,876评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,700评论 2 354

推荐阅读更多精彩内容

  • 统计学是人工智能的基础知识,也是投资领域的核心技能。 描述统计学即对大量信息进行归纳。数据越多,事实越模糊,所以需...
    Doraay阅读 1,707评论 0 1
  • 数据的集中趋势 众数 是一组数据中出现次数最多的数值,有可能没有也有可能有多个。 中位数 中位数,又称中点数,中值...
    当_下阅读 5,467评论 5 8
  • 描述性统计描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统...
    AnthRax阅读 25,586评论 -1 5
  • 前言 第一周是用的脑图写的,等有时间把第一周的也转化为笔记。话不多说,直接上第二周的知识点概括图: 1.集中趋势 ...
    超神的乔巴丶阅读 1,677评论 0 1
  • 形容一个人在某方面的成就,我们最长用到的一个词便是天赋,天赋到底是什么呢?怎么才能知道自己拥有什么样的天赋呢?拥有...
    三石姑娘阅读 427评论 0 1