2017-9-17很厉害的数据分析师是什么样的

大数据时代,数据已经成为企业的核心资源或者战略资源,各家企业都在招兵买马招揽数据专家,探索数据价值。一时间数据分析师、数据建模师、数据科学家身价倍涨,数据价值越来越被人们所重视。

数据价值可以在企业各个环节中得到发挥,大到企业如何做战略决策,研发什么产品,如何营销,小到产品哪个功能点要优化,广告UI要使用哪个配色,数据都能发挥指导决策作用。

但数据价值有赖于数据分析师或数据科学家的挖掘,一名数据小白和一名数据科学家,能看到的数据价值可谓云泥之别。那很厉害的数据分析师到底是什么样的呢,笔者提炼了三个要点:懂数据、懂业务、懂工具。

1.懂数据

1)数据从哪来

起初数据主要来源于线下,通过线下一笔笔订单、借债、资产由人工统计,形成每月财务报表。要了解企业整体业务情况要等到出具月度财务报表后。互联网发展将数据汇聚到线上后,数据实时性大大增强。但数据源仍然存在数据不够丰富,数据源无法全面打通对接的问题。

数据来源复杂,有些来源于业务部门,有些来源于财务部门,有些来源于系统采集,有些来源于第三方合作,在企业发展的不同阶段,企业会根据数据需求急迫度和重要度,先后建立不同的数据系统获取数据,之后再根据需求在系统间进行数据对接,方便数据调用。所以,数据分析师首先要了解有哪些数据系统,哪些数据指标,指标含义,不同数据系统数据指标含义是否一致,是否采用同一口径。

要摸清这些数据并不容易。一个系统中可能有上百、上千个指标以及网状的错综复杂的指标关系。

娴熟的数据分析师对数据指标掌握能达到这种程度:不仅询问常用指标,即使是很少使用的指标,以及通过加工计算的间接指标,他都能很快告诉你:在哪个系统哪个模块,用哪几个指标加工计算得出。这远非朝夕功夫。

2)数据是什么

当得知我是数据分析师后,他们问我的第一个问题通常是:你每天看数据,头不头疼?

在外行眼里,数据就是一堆罗列起来的数字,每天盯着看不出意义的数字看来看去,自然要看晕,看头疼。但内行心里都有答案:我每天看数据看的很爽很明白啊。

为什么? ——因为数据就是业务情况的编码,数据库就是层层业务关系组成的全景图。外行看数据就像看摩斯密码,而你受过训练,你看到的是明文翻译。

数据分析师就是数据语言的翻译官。既然是翻译官,就要对翻译内容负责:翻译的原文是否准确无误,原文要表达什么意思,翻译是直译还是意译。数据分析师就需要对数据质量负责:数据源是否准确,数据从哪个系统流转过来,数据为什么感觉明显不对。在开始数据处理前,保持对数据质量警惕性,能减少不少返工。

当我还不是数据分析师时,曾经有一次,和数据分析师一起向领导汇报业务预测结论。在讲述预测过程时,领导突然间发问:“业务成本为什么是零?”,“业务部反馈回的数据就是这样的”,数据分析师回答。我当时就汗流满面,忐忑不安。虽然不是我负责数据分析,但在成堆的数据中,我竟然也没发现这么明显的业务错误。汇报结果,自然要重新核实数据。

数据分析师要懂数据,就是能通过数据看到业务情况,发现业务问题。针对有问题的数据指标,是否要使用则要从业务逻辑上权衡之。

比如,统计学上对于多大的样本量才具有统计意义,有一个参考值:至少30个样本量。业务问题上不一定使用30这个值,但量级较小时就要注意统计结果,尤其是统计结果为相对值时,会严重影响数据结论。需要注意的是:当你处理成堆的数据时,你根本注意不到哪些“记录”的量级小于30,直到发现数据结果方差太大时。而数据不敏感的小盆友也不会注意到这个问题,结果就这样交上去了。

数据分析初期,这样的问题可能天天在上演。我们能做的就是不断反思、总结,同样的错误不犯第二次。

3)数据指向什么

通过层层了解数据源,加工数据,数据分析师常常得出的是描述数据的事实,而不是观点。举个例子:数据分析师通过分析流量来源,得到以下结论:70%的用户来源于自然流量,30%用户来源于广告投放。这常常就是数据分析师给出的结论。然后,就没有然后了。

而有些数据分析师会给出这样的结论:以往自然流量占比在50%左右,以短期内自然流量相对稳定为前提,广告投放引流效果变差了,如投放费用未发生明显变化,需要提升广告投放的精准度。

两个结论的区别在哪?一个提供事实,一个提供观点或者称建议。数据分析师应该不仅是数据加工师,也应该是决策建议师。

在疲于处理数据阶段,数据分析师并没有多少精力解读数据,思考数据变化业务逻辑关系。当数据加工处理更为娴熟后,才有更多精力在解读数据上。初级分析师要清晰认识到这点,尽快提升数据处理效率,将工作模板化、流程化,并有耐心等待进入解读数据阶段。

2.懂业务

业务和数据是精通分析的两个方面,互相牵制影响。精通业务能加深对数据的理解,精通数据能加深对业务的理解。在理解业务上,你需要get到以下三个要点:

1)业务问题是什么

有经验的业务人员非常清楚自己的业务问题,业务部门内的数据分析师也能很快熟悉,但不在业务部门的分析师,看到的只是数据的变动,并不能直接建立起业务策略和数据间关系,这种情况下分析师就要多和业务部门保持联系,了解原委。

从数据中洞察业务问题,就要了解数据指标的正常值和异常值。通过对数据指标的长期监控,了解影响此指标的因素及影响程度。一个百分点变化是应该密切关注还是无关紧要。对数据敏感性不是天生的,而是不断对数据掌握中获取的。

当数据严重偏离正常值范围时,有可能存在业务问题,需要分析。举个例子,在一次客户大进大出调研中,我们一度认为是代理商佣金奖励制度造成的,然而与自有渠道销售对比发现,其流失率并不比代理商渠道高多少。问题并不出在佣金奖励制度上,这个业务假设就被推翻了。

再举个例子,高价值用户占比20%,这个值是高了还是低了?——这要看基础概率。即在目标客户群分布中,高价值用户占比是多少。与之相比,20%是高是低。高很多或低很多,可能存在业务问题,就需要分析。

2)业务流程是什么

业务问题拆解,有时要从业务流程入手。梳理所有业务流程,细化到数据转化每个环节,根据数据表现聚焦具体环节,问题迎刃而解。

业务流程示意图

业务流程递进与数据流转是息息相关的,理清了业务流程,根据流程流转再去看数据情况,才有意义。

3)业务框架是什么

刚入行,两眼一摸黑,别说业务框架,能熟悉自己的业务,做好执行已经是满分了。遇上有育人精神的领导,还能从中窥见一二,否则就只能靠自己摸索了。

也许直到很久以后你才能逐步搭建起业务框架,但这并不影响你当下工作。业务框架的作用直到你处理更复杂业务问题时,才会派上用场。在自己业务模块中你可能卡壳找不到问题所在了,这时如果看看业务框架图,你可能会发现自己遗漏了某个环节,这个环节可能直接或间接影响业务模块结果,可能内在存在某种关联。这张业务架构图就是你心中的一幅地图,在你迷路时能帮你导航。

某集团业务框架

也许你很快能摸清业务架构的一级目录,但你可能需要了解到五级目录才能发现问题。架构图搭建并不是正向形成的过程,而是逆向。通过一次业务探索,你了解三级目录A和四级目录C关系,拼得一块积木,多块积木、多层积木的积累让你逐渐看清整个业务的逻辑关系,这才豁然开朗。

举个例子,刚入行,逻辑思维没有那么强,常常并不能做到以终为始逆向思考:从自己想要得到的结论,倒推分析过程,直到自己需要收集哪些业务指标。我们常常是正向思考:我能收集哪些业务指标,做出哪些分析,得出哪些结论。这些思考也并非一步完成。而是在理出业务指标后,才能知道要分析哪些。从自己的分析结果中,才发现自己能得出的结论。是走一步看一步的思路。

在经过了很多次,甚至一两年分析后,才慢慢能:走一步看两步,走一步看三步。棋局对弈中能看到五步之后的局势如何已远非业余水平。除了逻辑思维极强的天才,大多数人都要经历这个过程。这也是逐步看清结构的过程。

正向推导熟练后,有些人就会慢慢进入到逆向思考中,进行倒推。如果你问高手:我发现这个指标有些异常,这是什么原因造成的?他会告诉你,你业务上是不是做了哪些哪些调整或者你去看看哪个哪个指标是不是也发生变化了,然后吐给你一个结论。这是业务框架发挥作用的厉害之处。

3.懂工具

工具只是帮助你了解数据的手段,千万不要因为不懂工具而放弃一个行业,一个职业。工具是最容易学习的:任何工具都有大量的教程可参考,有大量的方法总结供学习,而且学习是系统化、结构化的。相比下,业务理解、行业理解学习要更有难度。市面上并没有多少结构化教材或课程,更不用说可直接拿来的经验,同时行业是发展、是不断变化的,业务理解也要与时俱进。

如果职场上你没有其他可拼的,首先就拼自己的工具掌握能力吧。这也是所有入行者要夯实的基础。在工具学习上,入门工具推荐两类:SQL(Structured Query Language)、Microsoft Office Excel,进阶工具推荐:SPSS Clementine/Python。

1)SQL

SQL是数据提取工具,大中型企业都会建立自己的数据库系统,常用数据会建立数据报表系统(常说的BI系统,即business intelligence),供业务人员使用。但深入业务分析需要更多的底层数据,报表系统里没有呈现的数据,这时就需要使用SQL工具提取数据库系统数据。

SQL工具很多,有oracle、mysql、sqlserver、hive等,除了细微差异,大多数SQL语句都通用。

SQL工具学习很容易,真正需要下功夫的是对数据库表结构的了解。从常用数据表了解,摸清数据指标及含义,建立起表结构间关系,完成日常工作数据提取工作为要。有精力的童鞋可以再去探索非常用数据表。

2)Microsoft Office Excel

Excel应该是所有数据分析师的入门工具。除了一些常用功能使用外,就是使用数据透视表和多学习内嵌函数,能省去不少工作量。除了数据量级处理有限外,Excel功能强大不能仅仅用强大来形容。高阶Excel学习,可以继续了解宏使用。

3)SPSS Clementine/Python

在数据分析进阶路上,还有一类工具是:数据建模工具,如SPSS Clementine、R、Python等。大数据时代,数据维度过于丰富,数据量级过于庞大,对于未知数据探索,手动计算发现数据关系的工作量已经过于繁重,交给这些数据模型工具就简单多了。其内嵌了大量精细的数据算法,我们需要做的就是掌握统计理论,掌握算法原理,输入规范的数据,等待模型的结果。当然,对模型的掌握,结论的解读,业务的理解,都是使用建模工具必须要学习的。

懂数据、懂业务、懂工具,足矣。武林高手也非全能,不过是能把一项武功运用的出神入化。同样,很厉害的数据分析师只不过在一项核心上精益求精!

#蔷薇记#: 记录生活之美和智慧之妙。

这是蔷薇石原创的第77篇文章。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容