数据分析是在当今每个企业都所需要涉及的一门学科,数据分析的书随便一搜就会有太多教大家如何的去使用。大致能把搜到的书分为两类:第一类讲数据理论统计学相关的,第二类就是数据分析工具应用类型的。而大部分我们所购买的书基本都是某一类工具如何使用去进行数据分析,但是看完过后还是不太懂什么是数据分析,应用到实际工作场景中照样很迷茫不知道该如何下手,这是什么原因呢?有的小伙伴会说:我想分析的根本没有数!拿到的这个数也就只能做做折线图,同比环比两组数对比一下!业务当中发生了什么数据好像不能看出来!不知道一个函数得出的结果代表什么!还有可能我根本不会用一些工作等等。。。
那为什么很多伙伴都想学数据分析呢?我想原因可能很简单:就是数据分析相关的岗位工资高啊!现在进入大数据时代不会点数据分析你具备核心竞争力吗?
本文就以个人愚见来探讨一下如何去做数据分析。文章大致分四个层次分别为:需求层、数据层、分析层、输出层。也是数据分析按重要顺序排的大体步骤。
需求层
需求层为什么是最重要的呢?因为需求是数据分析的开始,也是你要分析的目标方向。如果你都不知道你要分析什么,还怎么谈如何分析?数据分析需求的来源往往有3种场景:1.监控到现有的指标出现了异常情况需要通过数据分析去找原因;2.公司要对现有的运营模式或者某个产品进行评估确定是否需要进行调整或者优化;3.公司下达了战略目标或短期目标需要通过分析看如何达成。要确定需求就必须与需求方进行沟通,清楚的确认需求的内容或者自己要分析前必须要清楚你想要的结果是什么方向。举个简单的例子:年底将近,双十一大促销在即,数据分析师们又到了一年最辛苦,最悲催的时间段。然而,有多少无意义的加班,是因为业务部门不会提需求所导致的。需求提的不合理,业务部门看了不解决问题,就会反反复复的再提需求。导致数据分析师们辛苦加班还不落好,背上一个:“分析没深度啊!”的坏名声。其实这不能怪需求方不会提需求,而是你作为数据分析人员要用你的经验,你的专业技能,你的沟通技巧去引导,去确定,去达成一致。
所有要做到清晰的确定需求,需要自身具备:1、对业务、产品、需求背景有比较深的了解。了解的足够对你才能去引导去判断这个需求;2、光了解需求方是还不够的,你需要从获得的需求快速的去结合你所掌握的技能组工具有个初步的分析思路;3、综合判断后你再决定是否需要分析,应该怎么分析,与需求方沟通确定清楚两方理解是否一致。如果无法做到就会出现很多无法避免的问题。
理论上数据分析师所从事的工作是给出业务方相应的数据结果,而不是解决方案。虽然也有分析两个字,但是如何设计解决方案是业务部门的事。运营部门就该做活动方案,产品经理就该出产品方案,销售部门就该想东西怎么卖。这才是业务部门的本职工作。吵吵着:“你说我不行,你行你上啊”是玩忽职守的扯皮表现。如果连具体的业务方案都让分析师来想了,分析师也干脆把业务部门的工资领了算了。但是当下专业的数据分析师是需要比业务方更了解业务,你不了解业务下的结论领导或者需求方感信任吗?所以,一个业务技术双精通的数据分析师,是可以替业务方搞定上边所有问题的,不依赖业务方的判断,因为他自己就是个业务高手,有丰富的实战经验与业务能力。但这种人是可遇不可求的。大部分数据分析师还是70%时间处理数据的技术男。
在需求层我总结一下我们所需要了具备的能力:1、对业务、产品、需求背景有足够的了解,如果不了解说明你在这块应该先去充充电;2、然后当你无法想到分析方法的时候说明你对现有的数据不够了解。你同样该去了解了解数据的来源,数据的流转,数据的定义。
数据层
目标需求确定过后,现在的你就需要开始准备相关的数据了。数据层大致分为:数据获取、数据清洗、数据整理。有的伙伴会问,数据应该从哪来呢?数据来源取决于你分析需求,有直接从企业数据库通过SQL进行取数、有通过各统计网站进行数据下载,有通过爬虫技术在互联网进行数据抓取,也有通过企业已经加工好的数据报表,这里主要去讲在大数据时代如何去准备数据。因为利用数据库才能实现大数据下的真正核心分析,你才能配上数据分析师这次名称。
大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。大数据挖掘商业价值的方法主要分为四种1.客户群体细分,然后为每个群体量定制特别的服务;2.模拟现实环境,发掘新的需求同时提高投资的回报率;3.加强部门联系,提高整条管理链条和产业链条的效率;4.降低服务成本,发现隐藏线索进行产品和服务的创新。
为什么大数据能实现这些场景?因为大数据的类型大致可分为三类:1.传统企业数据(Traditional enterprise data):包括 CRM systems的消费者数据,传统的ERP数据,库存数据以及账目数据等;2.机器和传感器数据(Machine-generated /sensor data):包括呼叫记录(Call Detail Records),智能仪表,工业设备传感器,设备日志(通常是Digital exhaust),交易数据等;3.社交数据(Social data):包括用户行为记录,反馈数据等。如Twitter,Facebook这样的社交媒体平台等。通过数据库你能取到已加工好的报表EXCEL所无法做到的多样性及细节化,你才能通过这些详细的数据找出数据背后存在的问题。
现在的数据库主要分为关系类型数据,分布式数据库。关系类型数据代表产品为mysql(免费开源的),分布式数据库代表hadoop。两种都是实用sql语言进行数据提取,在数据分析中你将提取出来与分析相关的数据这步就是数据获取。这里你需要具备基础的sql语言能力,要从海量的数据中找到你想要的部分。这个环节你也能对数据进行初步的清理,这里取决于数据库中的数据存储是否完整规范。这里有一篇说数据库数据质量的文章推荐给大家数据质量管理。当你数据清理好也整理好后就可以开始进行数据分析了。
分析层
分析的工具有很多,平民版的分析工具有excel、非专业的专业分析工具有spss、专业资深的分析工作有sas/R/python。我的个人建议是在整个分析过程需要掌握的工具中为sql、excel、python。为什么是这三个,我先来说一下各个工具的特点。sql上文讲当它是数据获取的一个主要语言,而excel可以进行一下快速的数据展示(手动拖动点选快),Python功能强大几乎可以做你想做的任何事情不止局限于数据分析,学习优势绝对大于其他分析工具python能做的事情。
好了,那我们就利用Python来进行数据分析,分析的思路都是由”浅到深“。数据分析一般的步骤为:描述分析——锁定方向——建模分析——模型测试——迭代优化——模型加载——洞察结论。
描述分析是最基本的分析统计方法,在实际工作中也是应用最广的分析方法。描述统计分为两大部分:数据描述和指标统计;
数据描述:用来对数据进行基本情况的刻画,包括:数据总数、时间跨度、时间粒度、空间范围、空间粒度、数据来源等。如果是建模,那么还要看数据的极值、分布、离散度等内容。
指标统计:用来作报告,分析实际情况的数据指标,可粗略分为四大类:变化、分布、对比、预测;变化:指标随时间的变动,表现为增幅(同比、环比等);分布:指标在不同层次上的表现,包括地域分布(省、市、区县、店/网点)、用户群分布(年龄、性别、职业等)、产品分布(如动感地带和全球通)等;对比:包括内部对比和外部对比,内部对比包括团队对比(团队A与B的单产对比、销量对比等)、产品线对比(动感地带和全球通的ARPU、用户数、收入对比);外部对比主要是与市场环境和竞争者对比;这一部分和分布有重叠的地方,但分布更多用于找出好或坏的地方,而对比更偏重于找到好或坏的原因;预测:根据现有情况,估计下个分析时段的指标值;
洞察结论这一步是数据报告的核心,也是最能看出数据分析师水平的部分。一个年轻的分析师和一个年迈的分析师拿到同样的图表,完全有可能解读出不同的内容。
举个例子:
例子来源Data Science with R&Python
年轻的分析师:2013年1月销售额同比上升60%,迎来开门红。2月销售额有所下降,3月大幅回升,4月持续增长。
年迈的分析师:2013年1月、2月销售额去除春节因素后,1月实际同比上升20%,2月实际同比上升14%,3月、4月销售额持续增长。
看到两者的区别了吗?2013年春节在2月,2012年则在1月,因此需要各去除一周的销售额,再进行比较。如果不考虑这一因素,那么后续得出的所有结论都是错的。挖掘数字变化背后的真正影响因素,才是洞察的目标。
输出层
都到这一步了,相信各位对数据报告也不再陌生了。这一步中,需要保证的是数据报告内容的完整性。一个完整的数据报告,应至少包含以下六块内容:报告背景、报告目的、数据来源、数量等基本情况、分页图表内容及本页结论、各部分小结及最终总结、下一步策略或对趋势的预测;
其中,背景和目的决定了你的报告逻辑(解决什么问题);数据基本情况告诉对方你用了什么样的数据,可信度如何;分页内容需要按照一定的逻辑来构建,目标仍然是解决报告目的中的问题;小结及总结必不可少;下一步策略或对趋势的预测能为你的报告加分。
这大致就是整个数据分析所涉及的四个大步骤,后面就靠大家自己努力学习和思考了。最后说一下一直激励我前进的话:科技改变命运,科技掌握自己手中,自己由心出发。