作者:李启方
知乎来源:https://zhuanlan.zhihu.com/p/345618674
文章篇幅较长(4000字+),内容较多,建议大家先收藏再慢慢阅读~
欢迎分享转发~
1、数据分析常用的思维
判断一个人做数据分析的水平,不是看他学习了几种工具,最核心的差距在于思考问题的思维能,这是数据分析的本质,也是最容易被人忽视的点
常用的思维有很多种,下面简单举几个例子:
(1)对比思维:
通常来说是把两个相互联系的指标数据进行比较,从数量上展示和说明研究对象规模的大小
比如说,老板让你分析一下今年企业的发展情况,你拉表之后发现销售额比去年增长了10%,净利润比去年增长了5%,成本消耗比去年降低了3%。销售额、净利润、成本消耗就是对比的指标,我们不能拿销售额的数据去对比成本数据,这就是指标的对比与统一。
(2)细分思维:
比如某次考试小明的名次很低,如果他的父母不懂细分,一定会不由分说地训斥小明,根本找不到小明成绩差的真实原因。
而如果他们懂得细分分析,应该怎么做呢?应该将名次的维度转化为科目,然后分析每个科目的成绩,也许会发现小明只有某个科目没有考好,再针对这个短板采取相应的策略,这就是细分分析的思想。
(3)趋势思维
你可以简单地把趋势分析定义为对比分析的一种,一般来说是按照时间的维度,对某一数据或者不同数据变化趋势进行差异化研究,以及对数据的下一步变化进行预测。
趋势分析一般而言,适用于产品核心指标的长期跟踪,比如点击率,GMV,活跃用户数等。做出简单的数据趋势图,并不算是趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。
(4)目标思维
我们在接到业务的需求之后,需要先想一下这个需求的真正核心目的是什么?
如果知道了业务目标,那么就可以把这样一个取数需求变成一个分析类需求,最终的交付形式就成了一份PPT,这样,就能避免成为取数机器。
(5)结构化思维
在面对这么一个问题时,结构化思维方法首先做的并不是立刻着手清洗数据。而是根据对业务的理解,先为数据分析划一个思维导图,它的作用相当于你来到一个陌生的城市拿出百度地图查询乘坐交通工具到入住的酒店的路线图。
事实上,结构化思维就是由麦肯锡提出的著名的“金字塔思维”,如下图就是典型的结构化:
(6)演绎思维、归纳思维
很显然,归纳是从个体属性出发,寻找因子之间的共性,总结出一个一般的特性;而演绎则相反,是从一般整体出发,寻找事物之间的逻辑,从而得到某个个体的特性。
(7)假设思维
假设思维其实是从演绎思维中延伸出来的思维,简单来说就是通过不断假设、不断论证、不断推理、不断推翻原假设的方式,直到去找到我们最终的真实原因或者结论。
(8)溯源思维
溯源思维简单来说就是对问题进行细分后再细分,把问题进行分解到可以找到原因,列出解决办法。有时候我们不仅仅只使用对比思维和细分思维就可以得出来结果,这时候要想追溯数据源,然后基于此思考数据源背后可能隐藏的逻辑关系,或许会有其他的数据结果。
(9)事实思维
数据分析师第一个要训练的思维方式便是:只说事实,不说观点。
只有分清楚观点和事实才有继续分析的可能性。因为观点的沟通会出现误差,而事实则不会。如果我们用观点进行沟通,自然会出现大量的误解。
2、统计学相关的理论与基础
(1)描述型统计
描述统计是我们做数据分析的主要基础,比如说销售人员说今年我们的销售情况很好,比去年要好很多。这不叫做描述统计,因为“比去年好”这个特点不是定量的数据
描述性统计里大概有三个分类:集中趋势、离散趋势、分布。集中趋势包含平均数、中位数、众数、分位数等,离散趋势包含极差、平均差、方差、标准差、分位差等,分布主要包含峰态分布和偏态分布
(2)推理型统计
也叫作推理性统计,他的目的是研究如何利用样本数据去推断总体数据的方法。他跟描述统计不一样,描述统计是用整体的数据来描述整体特征,推理统计是用部分数据来推理整体特征。我们经常说的假设检验、采样与过采样、回归预测模型、贝叶斯模型都是推理型统计。
二项分布:如抛硬币n次,不同正面朝上的次数对应的概率;
几何分布:如抛硬币n次,到第k次才取得第一次成功的概率服从的分布
泊松分布:在一定时间范围内发生概率相同,给定其发生的平均发生的次数μ,则事件在该事件范围内发生k次的概率服从泊松分布
(3)假设检验
假设检验就是通过抽取样本数据,通过小概率反证法去验证整体假设
(4)回归
回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。
(5)聚类
聚类是根据数据本身的特性研究分类方法,并遵循这个分类方法对数据进行合理的分类,最终讲相似数据分位一组,也就是"同类相同、异类相异”
(6)贝叶斯
3、SQL与数据提取
SQL 数据提取主要学习一些SQL常用的语法顺序和执行顺序,然后学习一些条件子句、分组查询和排序的细节,最后去学习表的连接和其他常用关键字
下面再贴个sql的学习网站吧:
SQL Server数据库教程——51自学网 (视频教程)
地址:51zxw.net/list.aspx?
老师讲得很细,会一步步的教操作,前面7章看完,并跟着老师做完了所有的例子,就是入门了。
SQL Tutorial——w3schools (示例教程)
地址:w3school.com.cn/sql/ind
入门之后,就要多学学T-SQL语言了。除了51自学网的SQL Server数据库教程外,w3schools是一个很好的资源库,它不止讲解T-SQL语言的知识点,还有一个在线的示例数据库提供给用户,可以随时随地进行练习。
4、快速套用的分析模型
(1)帕累托模型:
帕累托分析依据的原理是20/80定律,80%的效益常常来自于20%的投入,而其他80%的投入却只产生了20%的效益,这说明,同样的投入在不同的地方会产生不同的效益。
(2)波士顿模型
这个模型虽然是市场模型,但是其背后的逻辑却是数据分析,也就是矩阵模型。矩阵模型是双维度模型,你可以从两个维度出发对不同的指标进行定位,比如波士顿矩阵,即从两个维度对产品或者业务进行定位,也就是产品本身和销售的维度
(3)购物篮分析
购物篮模型的本质是关联,关联大家应该都很好理解,就是反映某个事物与其他事物之间相互依存关系的,在商品关联分析的定义是,通过对顾客的购买记录数据库进行某种规则的挖掘,最终发现顾客群体的购买习惯的内在共性
(4)用户行为模型
分析用户某个行为特征路径,并分析其每个动作背后的行为逻辑。比如例如提交订单后,用户可能会返回首页继续搜索商品,也可能去取消订单,每一个路径背后都有不同的动机。通过模型分析能快速找到用户动机,从而引领用户走向最优路径或者期望中的路径。
(5)用户流失模型
主要应用在两个方面:流失用户召回、现有活跃用户防流失,最常见的就是AARRR模型、漏斗模型等等。
(6)用户价值模型
业务分析,很多情况下都是要在资源有限情况下,去最大化的撬动效益,如何挖掘能创造最大价值的客户就是用户价值模型的工作。最常见的就是RFM模型、CLV模型、顾客社交价值模型。
(7)5W2H模型
所谓的5w2h其实就是针对5个W以及2个H提出的7个关键词进行数据指标的选取,根据选取的数据进行分析
(8)PEST模型
Pest分析模型最早是作为金融行业分析产生的,用到我们数据分析领域更适合做一些整体的行业分析或者市场分析,优点是注重外部环境对数据的影响,缺点是无法从内部原因出发,所以无法分析具体的实际业务问题。
(9)SWOT模型
分析法也叫态势分析法,S是优势、W是劣势,O是机会、T是威胁或风险。
5、数据可视化原理
从定义上说,可视化分为科学可视化、数据可视化、信息可视化等,我们这里说的都是狭义上的数据可视化,至于理论之类的知识我今天就不多讲了,也没必要深入,我们只要清楚想要做出一个好的数据可视化,需要满足三个条件:
有三个要点,也就是信达雅。所谓的信就是要保证数据的正确性,达即是要让用户轻松接收到数据信息,能够对数据进行有效的表达,雅即是要保证可视化的美观,这三者既是可视化的重要作用,也是实现数据可视化的重要标准。
(1)可视化图表的选择
对比类:柱状图、漏斗图、词云图、迷你图
占比类:饼图、玫瑰图、矩阵树图、雷达图
相关类:散点图、树状图、甘特图
趋势类:折线图、面积图、瀑布图
地理类:热力地图、流向地图、点地图
(2)可视化排版原则
从上至下:重要的信息内容放于上方
从左至右:重要的信息内容放于左方
从中间到四周:重要的信息内容放于中间
聚焦:重要的信息内容应当集中设置
平衡:各个板块之间的内容量不宜相差过大
简洁:不同板块中的内容不宜过多,以2-3个图表为宜
6、业务指标体系和业务练习
(1)如何理解业务?
第一步:确定分析目标,如分析产品功能、原因诊断等
第二步:确定业务核心需求,将取数需求转化为分析需求
第三步:确定核心指标,通过目标找到核心的分析指标
第四步:根据核心指标进行拆解,如常用的公式法
(2)业务关注的要点
(3)分析目标确定的步骤
吃透业务的分析需求,系统性地引导业务分析
建立分析体系,不完整的地方,有业务帮忙补充
了解业务逻辑和模式,补充业务知识
分析结论和成果要有明确的业务指向
(4)常见的业务场景
经营类数据分析
指收入、销量等与企业经营活动相关分析,监控企业的运行情况,是为了发现企业运营中的问题,关注点是销量/销售额总体的时序变化、地区分布、变化原因
用户数据分析
指购买额、购买频次、购买偏好等相关分析,目标是深入理解客户,关注点是用户画像分层、RFM模型衡量用户价值分层
销售数据分析
定义是指销售收入、销售额、单价等与销售情况直接相关的分析,目标是完成销售任务,监控销售销量低的原因,提出解决方法,关注点是时序进度、落后原因、销售单产情况
营销/市场分析
指企业营销/市场活动的投放、反馈、效果相关分析,目标是了解活动结果、优化活动计划、提升活动效率关注点主要集中在ROI相关指标
(5)业务知识的来源
业务这一块的内容是普通数据分析人的瓶颈,所以要学习的内容确实太多了,这里也只能给大家列举一些要点。