数据分析工具箱v1.3——连续分布

背景

除了离散型变量的频率统计,连续型数值的分布观察也是探索性数据分析中常用的方法。仅仅只看平均值是不够的,会掩盖掉许多信息;你还需要观察数据是均匀分布的,还是主要集中在腰部首尾较少的橄榄型,或者是具有长尾效应的金字塔型——这样才能对数据样本有更全面的了解。另外,除了探索性数据分析以外,基于预期的分位数反推数据,也是实际业务中许多运营策略临界值的决策依据。因此,基于临界值统计分布、基于分位点计算临界值,是这个工具的主要目标。

在实际工作中,这种数据需求并不少见——比如用户使用时长分布、订单金额分布、连续访问间隔分布等等。其实统计方法很简单,一般就是设置断点,将连续数值分隔成离散区间,再聚合统计。不过既然是探索性数据分析,也许并没有许多先验知识,比如断点怎么设置才合理。交付完数据之后,如果需求方还想再换种分析角度,那就得改代码再跑一遍……

事实上,探索性数据分析应当是一种轻量的、高频的场景,它不值得数据分析师投入太多支持成本,更不值得数据仓库专门去生产调度——它就应该是一个轻量级的工具,即时需要,即时查询,即时获取到分析结果,用完就走,什么都不留下。

本文以订单金额分布分析为应用场景,探索2个问题,来演示这个工具如何使用:

  1. 付费用户的支付金额主要集中在什么范围,亦即消费主力的消费水平如何?
  2. 如果要分别对头部20%、尾部20%的付费用户作运营活动,应该怎么确定范围?

产品操作

数据样本

以均值1000,标准差为200的标准构建样本量为10000的正态分布随机数据(一会儿我们验证一下究竟长得像不像正态分布),然后上传上去,就一个付费金额字段,其他不需要。

数据预览

控件功能

控件有3个,第1个是用来选择1个度量的下拉框,当用户上传完数据后,这个下拉框会自动筛选出度量,用户选择1个即可。后面2个输入框分别对应着下面2个图——中间的输入框用来输入区间断点,即输入一些数值,系统基于这个数值划分区间再统计分步;右边的输入框用来输入分位点,系统基于分位点自动计算并返回对应的数值。

控件功能

良好的兼容性

用户在这2个输入框中输入数值,用英文逗号连接。

  • 不需要考虑输入的数值是否在数据范围内,系统会自动把小于最小值或大于最小值的输入值给过滤掉
  • 不需要考虑从大到小还是从小到大的顺序,系统会自动排序
  • 不需要考虑有没有多打几个空格没看出来,系统会自动trim
  • 不需要在意输入的有没有字符串等错误信息,系统会自动过滤,只要在对的地方用逗号分割

比如,我只输入一个0,这是小于数据的最小值的,所以整个订单金额并没有被分割:

最值范围以外

比如我不按顺序(还有重复)地输入1000,2000,1000,1500,系统会自动先排序再分割统计:

乱序输入

比如我的输入中带有字符串,系统会自动忽略:

非数字输入

综上,只要用户填写的分界点的数值本身没写错,分隔符的位置也没写错,其他无约束,想怎么填就怎么填。

数据分析

回到我们开头的2个问题,我们怎么使用这个工具快速进行分析,得出结论?

基于分界点计算分布

我先从0开始,每隔500作为一个步长来递进到3000,即输入0,500,1000,1500,2000,2500,3000。可以看到付费订单金额最小值是14,最大是1736,付费金额主要集中在(500,1500]的范围内。

0,500,1000,1500,2000,2500,3000

当然,你可能觉得这么划分太粗,没关系,可以继续细化,也不用考虑是不是均匀分割的——前面说过,想怎么填就怎么填。我们在刚才的基础上,进一步对500~1500的范围内,以每隔100的规则递进,即输入0,500,600,700,800,900,1000,1100,1200,1300,1400,1500,2000,2500,3000。可以看到,果然是标准的正态分布。

0,500,600,700,800,900,1000,1100,1200,1300,1400,1500,2000,2500,3000

当然,我们把鼠标hover到柱形图上,可以看到更详细的信息:

  • interval:所在区间
  • counts:所在区间内样本量
  • frequency:所在区间内样本的比例
  • accumulated frequency:所在区间的累计比例,即不超过这个区间的比例

图中这个例子的解读如下:消费金额在(1000,1100]范围内的付费用户数有1919个,占全部付费用户的19.19%,消费不超过1100的付费用户比例为69.55

hover信息

每个柱形hover一遍,自己再口算一下,第1个问题就能回答:消费主力群(占付费用户比例的77.43%)的消费金额都介于700~1300。

基于分位点计算分界值

现在回答第2个问题,要把头部和尾部各20%的用户筛选出来,即是求20%和80%分位数的值,在右侧输入框输入0.2,0.8即可。从图中可以看到,20%分位数是828,80%分位数是1165。因此,要找头部20%付费用户,即筛选付费金额大于等于1165的;尾巴20%则筛选付费金额小于等于828的。

上下20%值
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349

推荐阅读更多精彩内容

  • 国家电网公司企业标准(Q/GDW)- 面向对象的用电信息数据交换协议 - 报批稿:20170802 前言: 排版 ...
    庭说阅读 10,932评论 6 13
  • 每天进步一点点点点点点点点点点点点点点点点点点点点点点点点点点点点点点~~从开始只能写几句话、模仿别人的观点,到现...
    一个帅气的名字呀阅读 18,058评论 4 31
  • ORA-00001: 违反唯一约束条件 (.) 错误说明:当在唯一索引所对应的列上键入重复值时,会触发此异常。 O...
    我想起个好名字阅读 5,256评论 0 9
  • 来之前陈帆同学强烈要求来后海一定要去七月七日晴 那就直奔呗。 不想码字了。五个字概括一天。开心。爽。过瘾。
    吴晗很困阅读 145评论 0 0
  • 跟我走吧 忐忑给你 情书给你 不眠的夜给你 四月的清晨给你 雪糕的第一口给你 火锅的最后一颗鱼丸给你 手给你,怀抱...
    零五二四阅读 97评论 0 0