原创:海峰
数据分析,数据可视化是眼下灼手可热话题,对大多数人来说数据分析说起来简单,做起来却难。本文是笔者对自己学习和实践数据分析的一个总结,希望给正在路上的你一点点指引和帮助。同时鉴于本人经验和知识的局限性,希望读者在实践中酌情参考,有不当之处敬请留言告知。
写在前面的话
数据是什么?这几乎成为一个我们熟视无睹的问题。
先来看看百度百科的答案
数据,是观察事物的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的的原始素材。
表示说了等于没说
被整蔫了
没关系,来几组实例看下:
123456
ABC,25
苹果电脑,华为手机
2019年1季度实际GDP同比增速持平于2018年4季度的6.4%
你觉得这是数据吗?
被你这么一搞好像更糊涂了,那好我们来解释一下,依照百度百科里的解释,凡是对事物的描述就是数据,由此可知,单纯的一个数字或者一个单词,不能理解为数据,只有基于真实环境的,具有上下文的,有实际意义的才能被理解为数据。这样的话,上述的几种情况,还是比较好分辨的。
这样说你清楚了吗?再来看一个例子
金庸的《倚天屠龙记》是数据吗?
《倚天屠龙记》,这明明是小说好吧,还是从定义出发,小说也是对事物的描述,所以从广义上来说,答案是肯定的。但是在真实的分析环境中,实际上我们无法对一部小说进行常规的数据分析。这就需要把小说的内容转换为可供分析的,工具软件可以识别的格式。注1
这样应该清楚一些了,那再试着分析一下《倚天》里的问题:
在《倚天》里谁的武功最高
张无忌到底爱谁多一点
张三丰对战三大神僧,结果如何
完了,还是一样的茫然
先不着急,继续往下看
我们再来搞清楚,什么是分析
分析 是将复杂的事物逐渐拆分的过程,以此来达到对事物更好的理解。
首先,是定性分析,基于个人的理解,判断,对事物做出解读,通俗点说就是你尽管扯,尽管侃,只要你讲出道理来,但是最后的决定因人而异,因立场而异,就好比读书,每个人心中都有自己圣洁的小龙女,一百个人眼中有一百个哈姆雷特......
知道怎么分析谁的武功最高,张无忌最爱谁了吧
但是,这样的分析,没有标准答案,你们尽管去分析,去争论......
其次,是定量分析,是把需要描述的事物数量化,指标化,用具体数字,指标值来衡量事物,最后总要比个大小出来,不死不休。我们所说的数据分析,很大程度上应该落在定量分析的范畴内(当然也有些是定性指标)。那到底应该如何分析,上面提出的问题呢?
大家可以思考一下,本篇后续内容,将为您准备一个真实的案例,来呈现分析的过程,如果读完还是存有疑惑,欢迎留言讨论。
正文
从一家超市的销售数据集出发,从以下4个方面进行阐述
1.开始数据分析前的准备工作
2.利用Excel数据透视表,快速探索数据
3.数据分析与业务增长的牵绊
4.分析技术与数据洞察之争
本文采取的案例背景,是一家超市从2014年至2017年的销售数据明细,详情如下(部分截图)
开始数据分析前的准备工作
熟悉,了解业务逻辑
熟悉业务逻辑是所有数据分析不可回避的前提,不可回避的前提,不可回避的前提,
重要的事情说三篇,也随便凑点字数。
如果离开业务本身谈数据分析,就相当于空谈,最后就算能得到一些见解,也是聊胜于无,更甚至于有副作用,只有基于业务逻辑,才能理清数据背后的各种关系,比如案例中超市面向终端客户销售产品时,有些商品是企业自己周年庆促销,另外一些,是超市搞满100减30的活动,有些商品是会员价,有些是基础售价,那当你拿到该超市当月的销售明细表时,你该用哪一个价格来做具体的分析,这将会直接影响你分析后得到的结论,当你把自以为精妙的分析结论拿给超市经理看时,扔回去重做是影响最小的决定,万一那个超市经理也是个二货,那估计你就等着下个月卷铺盖走人吧。只有对业务的深入了解,理解业务逻辑,才能选择最恰当的分析维度,快速勾勒出数据背后的问题和原因。
了解业务逻辑的捷径,就是关键业务人员访谈,业务中有什么痛点,只有真正做的人才知道。想必,你也有过类似经历,老板花费巨资,请来咨询公司,一顿操作,最后得出的结论和方案和我们业务人员了解的相差并不大,大概率的业务人员也知道如何去做。当你刚开始接触数据,或者去收集数据的时候,去找关键业务人员聊一聊吧,打开数据迷雾的钥匙就在他们手中。
明确分析的目的
了解了业务逻辑,随后我们要明确本次分析的目的是什么,是价格分析,还是销售额分析,是没有达到预期目标的分析,还是公司内部管理损耗的分析,是专题分析,还是整体分析。这些都随着最终报告阅读者的级别或项目属性的不同而不同,所以在分析之前,一定要明确自己分析的目的,切忌照搬上次的或其他项目的分析内容,随意组合手上的数据,这样会导致分析结果华而不实。老板明明要的是销售额达不到预期,你给来个产品价格分析,无论怎么说,都不太合适吧。
紧扣题意,是我们从小学语文课就开始学习的,可是谁还没偏题,跑题的时候呢
作为职场专业人士,你最好时刻展现你的专业价值
了解数据
1.了解数据先要了解数据的来源,数据的来源直接决定了数据的质量
数据分析,数据是你的原料,是最不可缺少,就像大厨做菜,总要先买菜的,那这菜是从哪里来的至关重要,菜可以是原产地直销的,也可以是采办们从自由市场,或者批发市场买来的,是定点商家送的,还是看到有商家促销临时起意买的,抑或是大型卖场进货的,这些买菜渠道的不同,原料品质的差异,都将决定大厨如何处理,和加工这些菜品。数据也是一样的,数据来源于哪里,也是我们在着手分析之前必须搞的清清楚楚的,是公司ERP系统里直接导出来的,还是底层业务人员人工录入的,亦或是二则兼而有之,或者从第三方机构买来的,网上自己找的......
2.概览数据,包括了解数据的容量级别,数据结构,互相关系,数据的颗粒维度,以及数据的大致分布。常用的有直接观察查法,查看数据文件大小,数据记录数量,查看数据表结构,关键字段是哪些,数据排序以查看数据范围,也可以直接使用SQL语言对数据源进行初步探索。
只有了解了这些以后,才可以帮助我们如何进行数据的清洗加工,在还没有搞清楚这些之前,切忌随意开始着手数据分析,即使你强行动手分析,相信在你进展到中途的时候,还得回过头来,把这些步骤给补上的,所以,欲速则不达。
快速探索数据
1.定义度量值,也可以称为数据指标,是衡量数据的标准,体现为数值的大小,例如销售额,利润额等等,一个好的度量值或指标应该指数化,简单来说就是去单位化,这样可以帮助我们与其他维度进行对比,例如销售额同比增长率,基于同比增长率可以排除销售体量不同带来的困惑。度量值或指标指数化是一个计较复杂的过程,需要扎实的统计学基础,并且非常熟悉业务逻辑。
2.定义分析维度,维度是描述度量值的参数,是观察数据的角度,在案例的具体的分析中,可以把维度认为是评价分析对象的角度。常见的维度有时间序列,销售的商品种类是另一种维度,也包括超市门店所在地区,城市等
3.度量值和维度的互相转化,比如销售额,净利润本身也可以是一种维度,但是使用度量值作为维度的时候,必需先将其维度化,最简单的维度化,就是把度量值进行数据区间分组,以销售额为例,可以把销售额分成10万以下,1050万,50100万,100万以上等若干个数据区间,具体的分组大小,取决于该度量值的数据范围和你需要考察的细致程度。
与之对应的是把维度数量化,常见的转换有,对维度计数,或者非重复计数,比如案例中可以对商品种类进行非重复计数,由此可以求出商品品类的数量。
最后,当我们有了度量值,和分析维度以后,就可以通过不同的维度组合,以形成数据模型,或叫作数据仓库,图形化后就是一个三维的数据立方体。
这是超市数据扁平化以后
通过数据模型,我们就可以从不同的维度,和层面来观察数据,这样就提搞了分析的便利性,和灵活性,可以满足不同的分析需求。我们利用Excel的数据透视表,来获取数据模型中的度量值和维度进行进一步深入分析,最简单和普遍的就是进行钻取,上卷,和切片。
下面通过一个简单数据透视表+一个地区切片器的实例来进行详细阐述,该数据透视表主要体现销售额及其同比增长的情况,同时辅以地区切片器对数据进行筛选用以观察时间维护下,各期间及对应地区的销售额变动情况
或者同一地区维度下,各期间内销售额的变动趋势
间或通过对时间维度的钻取和上卷,可以观察随时间维度上颗粒度的变化,销售额的趋势变化情况
钻取,就是将维度继续细分,比如时间维度,是最常用的可以进行钻取的维度
首先,释放切片器上的筛选,在整体上进行观察,
上卷,就是钻取的相反操作,即将维度进行聚合
由于上面已经详细解释了钻取分析,上卷就不做详细阐述了。
在聚焦到西南地区后,我们进一步对期间(年)维度进行钻取到季度,可以得到
从季度的维度可以看到,西南地区2017年Q3仅同比增长3.22%,Q4甚至出现了负增长,同时也可以看到之前几年该地区的销售额波动就比较大。
同理,如果有必要的话,我们可以很轻松的利用钻取,深入到月份,周,的维度去观察该地区的销售额及其同比增长趋势。找到在更细时间维度上,销售额发生了什么。
西南地区的销售额出现了异常,那么分析到这里,就可以把该信息传递给该地区的区域经理,当然真实业务中,到这里显然是不足够的,我们还需要继续对数据进行深入探索,来分析该地区哪个城市的销售额及其趋势,再进行细分品类分析,得出哪些品类的销售出现下滑,或者价格,促销活动等分析,是定价策略的问题,还是营销的问题,由于问题复杂性提高,这些都可以继续通过其他相关的维度和运用合适的分析方法来挖掘,来得到相应的结果。
如果继续深入下去的话,不知大家发现没有,该实例的数据中存在一个致命的缺陷,就是数据里没有具体门店的信息,这将导致分析到城市维度后,无法继续深入探究门店的销售额及其增长趋势,这就要求我们继续去补足门店的数据信息,才能继续进行门店维度的分析了。
所以,在数据分析时,数据颗粒度的粗细将直接决定我们分析的细致程度。在相同条件下,数据颗粒度越细越好,细的颗粒度终将引领我们探究到问题的核心,否则,有些问题可能将无疾而终,但是越细的数据颗粒度,意味着数据量的几何级数的增加,这对业务复杂性,及数据模型,和分析师的技能提出新的要求。
以上,就是一个简略的数据探索,分析,得出见解的过程,但这不应该是终点。
数据分析与业务增长的牵绊
数据分析是手段,业务增长是目的 数据分析的结果输出业务层面,业务层面应该采取相应的措施,当分析出某度量值(指标)出现异常时,即某个因素对业务实施正向或负向的影响时,那么该信息就要传递到业务部门,业务部门据此做出决策,采取相应的措施,以期能改善负面的不良影响。
在该案例中,当我们得出西南地区销售额增长乏力后,应当立即通知该地区的区域经理,假设我们已经找到最终的影响因素是由于某品类的牛奶销售出现了问题,并且该牛奶销售,是由于供应商断供而引起的,那么当我们了然以后,采取措施,可以对该牛奶供应商施加压力,或发开其他类似品类的供应渠道,再来看后续的销售额是否得到修正,如果是,则说明分析正确,措施得当,如果没有正向影响,则需要再次进行数据分析和验证,不断循环,直到解决为止。
相反的,如果某地区的销售某个期间内出现了异常的增长,则我们要去分析增长为何会发生,如可以的话,我们能否复制导致增长的因素,这样就可以继续持续不断地促进销售增长。
这里不得不提的是,无论采取措施后,对结果有什么影响,结果是否得到改善,最终的结果都要反馈给数据分析师,以此来查看数模模型是否合理,只有得到了反馈结果,分析师才能对数据模型和算法进行调正,和迭代。
最后,理想情况下,我们在模型设计的时候,应当为业务部门的反馈措施,预留数据接口,即当业务部门采取相应措施后,把该措施数据化到我们的分析模型中,这样一个完整的分析循环就闭合了。这样可以为模型的自动运行和深度学习提供迭代的基础。
假如分析还是停留在分析上,没有任何跟进,和改善的措施,那么数据分析就是等于零。引用大神的话就是我们要做到的是:
业务指导数据,数据驱动业务
症结所在
1.现在我们大多数企业,其数据分析和业务是脱节的,这不仅体现在分析流程上,甚至在组织架构的设计上,也是业务的归业务,数据的归数据,这样的架构直接导致了分析和措施反馈环节之间的脱节。数据分析给出的见解,根本不是业务部门需要的,而业务部门提出的分析需求,由于业务人员和分析人员在数据理解上的偏差,最后很难达到理想的预期。
2.更好一点的情形是,数据分析给出见解后,业务部门也去采取对应措施了,可是这些信息没有被继续反馈回数据部门,这样就无法完成分析模型的闭合。
3.简单来理解,一个闭合的分析模型,才是一个完整的分析模型,数据的深度学习才能得以建立。
有结症才有机会,这为大家提供了一个广阔的空间和舞台。有一个趋势大家必须了解到,数据分析越来越从一个专业技能变成一个通用技能,数据分析越来越朝着业务人员的自助分析转变。如上例中,业务人员自己做分析的话,很容易就找到问题的症结所在,继而迅速采取措施,避免销售额的下降。数据分析和业务增长是相生相伴,永不分离。
分析技术与数据洞察之争
数据分析不仅仅是模型算法和可视化呈现的简单堆砌,如果数据分析仅仅追求的是高级的分析方法,和炫目的可视化技术,就显得有点舍本逐末了,并不值得推崇,需要建议和强调的是,技术不是目的,技术是井上添花,如果你能通过简单合适的图表来呈现你的数据洞察,那才是数据分析的价值所在。
当然高超的分析技术可以更好的呈现数据,为洞察数据助力,洞察数据才是真正的目的和价值。这是每个数据数据分析师需要了解和平衡的。
注1:大神勿怪,原谅众生的无知,先让我们这样理解吧,不然......其在无法理解了。
能看到这里的都是真爱,重磅福利预告:
下期文章推送的同时,开启送书活动,请提前关注公众号
《魔鬼经济学》,说白了是一套关于数据分析的书,关注数据分析的你,不妨换了思路看世界。
**赠书资格,留言点赞最多的前2名;留言最走心的2人,由作者选出。
一人一本, 随机发送!
更多资料,请欢迎前往公众号:DataPivotal
分享成就价值,愿与有相同兴趣的同学互相交流,共同成长