数分避坑指南第2式:取数秘方

在数据爆炸的时代,决策是依赖于数据,无论分析师还是运营业务人员,如果自己能够获得数据,将会大大提升工作效率。那么你以为这个很容易,实则不然,往往埋伏了很多坑。

数据分析最基本的功底是保证获得数据是准确的,否则分析结论的置信度大大降低。那么这80%最苦最累的活,如何省力高效的做好,DO君给新人们分享一个取数秘方:“做菜法”

情境:作为一家电商公司的刚入职的数据分析小白,有一天商务部的同事给你提了如下的需求:

* 月份商品订单的分布;

* 会员中男性和女性购买产品的偏好?

* 取出会员购买的quantity分布是什么样的?

01 做什么菜?

在出门买菜之前,大概想一下今天要做什么菜及需要什么食材和对应的量,列个清单。结合到工作中就是:根据需求的目标,画出excel表格,列出口径

e.g. 会员中男性和女性购买产品偏好是什么?

02 准备菜

清理坏掉的菜叶与洗菜和切菜,完成做菜前的准备工作。这个过程是要有洁癖的。

首先我们要览下明细数据,知道数据集中字段对应的是什么内容。

- 字段定义与口径

如果对需求中涉及的字段不了解,一定要寻找数据创建者或者数据所有者咨询。

字段的真实意思与字面意思并不一样e.g. 这里的date日期指的是?下单日期还是送货日期?

字段下的数据是经过后期处理后的数据,需要确认处理逻辑e.g. amount是如何计算得到;

数据值是固定值还是动态值?不同时间下的数据会不一样,e.g. amount 订单金额是支付订单的吗,是否包含退订的;

- 数据类型是否准确

quantity的字段不是数字型,不能进行汇总计算sum,计算的时候需要转换数据类型,可以使用函数 cast进行类型转换;

selectcast(quantityasINT)fromtmp_bu_vac.supermarkets

- 最大值与最小值,发现是否有异常值;

针对quantity的字段发现有999和-1的异常值,需要剔除对应的行记录;

selectcast(quantityasINT)quantity,count(distinctorderid)fromtmp_bu_vac.supermarketsgroupbycast(quantityasINT)orderbyquantityDESC

- 维度字段中值的分布怎么样?

识别是否有空值及对应的比例;如果字段空值率过高,利用这个字段分析的置信度就很低。发现在性别中有少量空值,分析时需要剔除。

selectgender,count(distinctorderid)fromtmp_bu_vac.supermarketsgroupbygender

- 重复值

识别出重复值的行记录,然后判断明细记录,是否需要剔除。因为是一个订单表,所以判断订单字段是否有重复;

selecta.*fromtmp_bu_vac.supermarkets ajoin(selectdistinctorderidfrom(selectorderid,count(orderid)fromtmp_bu_vac.supermarketsgroupbyorderidhavingcount(orderid)>1) )b ona.orderid = b.orderid

发现有2个记录是完全重复的,所以在分析的时候需要剔除掉;

selectdistinct*fromtmp_bu_vac.supermarkets


03 做菜与菜做的好坏

数据的获取与数据出来后的交叉验证。

先看下菜谱,了解做这道菜步骤:需求的取数逻辑是什么?我一般喜欢在草稿本中先写出来,怎么处理;别先着急取数,欲速则不达,宁愿多花点时间理顺逻辑;

菜的好坏判断(通过和网上图片对比或者做过这个菜人来评判下):通过第三个数据源比对(比如自己数据仪表盘上的销量总数,做个对比,判断数据是否对);

如果有错,或者看不出来错的场景下,抽取小样本进行明细的比对,定位是自己处理过程有问题,还是本身数据源有问题;

04 高效做菜的tips

-踩坑知识点记录,笔记软件同步(安利有道云笔记),可以多端同步,非常方便。

-sublime编辑器,方便以后复用,不用每次都写一遍,同时分析的代码及时写注释方便后续快速复用。

-相似处理计算逻辑可以做成POWER BI模板,下次可以直接读取结果,适合为需要可视化判断的数据;(下次单独一篇来分享)。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,335评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,895评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,766评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,918评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,042评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,169评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,219评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,976评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,393评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,711评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,876评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,562评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,193评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,903评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,142评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,699评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,764评论 2 351

推荐阅读更多精彩内容