横看成岭侧成峰:数据分析中的维度和指标

当你面对一个新的数据集,如何开始观察和分析。如同面对崇山峻岭,你所在的位置,观察的角度,都会塑造不同的分析效果。

  • 维度

小伙伴们都学过平面几何,最开始是一维结构。



只有一个x轴,轴上所有的点组成集合。每个点用x值(该点到原点的距离)描述。

接着扩展到二维结构:



X轴和Y轴组成平面,平面上所有的点构成集合,每个点用x值和y值描述。

随后是三维结构:



X轴,Y轴,Z轴构成空间,空间中的每个点用x,y,z三个值描述。

开个脑洞:我们生活在长,宽,高组成的三维空间中,能够感知到第四个维度——时间。三体中的降维打击就是把太阳系变为二维,生命自然不复存在。假如是来自更高维空间的生命,他们是否能够在时间中自由穿梭?

  • 数据的维度

这些和数据分析有什么关联呢?因为数据也有它的维度。描述一个样本时(一件商品,一次交易),会通过不同的属性来表达它的特征。
例如每个学生可用这些属性来描述(学号,姓名,性别,院系,……)
每个属性就是一个维度,每个维度具备自己的取值范围和数据类型。这种按照固定模式描述和储存的数据称为结构化数据。结构化数据的储存方式各有不同。
可以是txt文件:


也可以是Excel文档:



也可以是SQL Server,My Sql等各种类型的数据库。无论是哪种文件形式,加载到dataframe之后,都会成为下面形式的表格:


一个n列的表,可以映射到n维向量空间中。有时需要处理多维的数据集,例如金融机构的大数据风控模型,维度会高达数千。可以想象其计算会非常复杂。通常使用降维技术进行处理,即通过数学方法,甄别出哪些属性是对分析目标至关重要的,哪些是无足轻重的并将其抛弃。

这是一张销售渠道表,也是要使用的示例数据,其中包含(Account,Client, Rep,Manager,Quantity,Price,Status,Date)八个维度。从特定维度进行分组统计,可以获得不同信息。

按客户维度分组,观察每个客户的订单总金额和商品总数,判断大客户和有待发掘的客户。


按经理维度分组,观察每个经理的订单总金额和商品总数,这可是一个重要的绩效标准



经理维度和销售代表维度结合,查看每个经理手下,销售代表的订单总额和订单个数。


再把产品维度添加进来,查看每个销售代表的每种商品销售情况。


product.jpg

Manager维度和status维度结合,查看每个销售经理的订单总额和订单个数(len计算的是这一组的记录有多少条)。Debra和Fred的订单总数差不多,但是Fred有3笔订单是won状态,Debra只有1笔,Fred的订单成功率明显更更高。


status.jpg
  • 数据字典中的维度
    商业分析中,设计数据字典时,也会提到维度这一概念。它其实是在数据集维度基础上的一个概括和抽象,可以想象为若干个属性的组合。

上图来自解密大数据社群一期课程内容。
同样是分析销售数据,时间维度可以细分为“日、周、月、季、年”,即对某一时间段的数据进行统计。假如数据集中包含地理位置信息,地理位置的维度可以包括“纬度”、“经度”或“城市名称”等属性。

注意:某些数据分析文章中会出现“二维表”一词,这里的“二维”是指表格由行、列共同构成,与表格中每个属性所对应的“维”又是不同的概念。不管该表有多少个属性,都可以称它为二维表。

  • 指标
    指标是指可以按总数或比值衡量的具体维度元素(网络定义)。个人理解:在具体维度的基础上,取特定数值进行运算,使之成为有参考意义的衡量标准,就是指标。
    上述对销售表的各种统计信息,都可以成为指标。具体采纳哪些,取决于管理部门和数据分析部门对业务和考核指标的理解。考虑更复杂的情况,计算每个经理或每个销售代表的订单分布,成功的占比多少,失败的,待定的分别占比多少,比起直接计算订单总额是不是更加合理?

总结:面对新的数据集,先理解其中各维度的信息,再思考怎样从原始数据中生成指标,设计指标体系,这是数据分析的基本技能。

本文刻意不涉及任何代码,首先要理解数据模型包含的信息,数据指标从何而来,才能更好地利用代码实现。你也可以展开更多思考,比如每个客户的平均订单金额(客单价),订单数目该如何计算。或者找一个数据集,为它设计一个指标体系。

想了解解密大数据社群数据分析课程,请关注:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,711评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,079评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,194评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,089评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,197评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,306评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,338评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,119评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,541评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,846评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,014评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,694评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,322评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,026评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,257评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,863评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,895评论 2 351

推荐阅读更多精彩内容