数据分析小白往往在学了一大通数据分析工具,比如Excel/SQL/Python /java/SPSS什么的之后总感觉分析数据没思路,一是没有数据可供你分析,网上找的一堆数据都不是你“理想”的数据形态,因为学习用的数据好像都是恰好是解决学习的那个部分知识,别的问题都没有,很“干净";二是你自己爬数据或者找公司内部的数据,发现不是格式有问题就是完整度缺失,又或者没法用一些成熟的方法去套。
这个时候可能就会想是不是自己还不会什么窍门或者方法论呢?一去4某度、某乎搜索会发现五花八门的答案,各种大拿的高赞答案说一样都一样,说不一样好像都不一样,甚至你会看到,有说统计方法论(比如描述分析、回归分析、判别分析、时间序列)、商业方法论(PEST、波特五力模型、SWOT、4P、5W2H),还有说的简单明了的,平均分析法、对比分析法、交叉分析法、趋势分析法、结构分析法,也有名字高深点的,CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM。
你会傻傻分不清到底谁说的才是对的呢?实际上,你的判断需要基于对答主的职位和行业等背景,因为方法论本身是抽象的,具体到各个行业各个岗位经过长期实践总结而来的一种流程或体系,所以因人而异,看你今后往哪个领域发展而着重搞懂这个领域的“方法论”。
从行业来说,商业领域和工业领域的数据类型、存储方式、数据量不同,方法论自然不同。对于职位来说,对于业务运营只需要知道常用分析思路,比如对比、趋势、占比、异常;对于初级数据分析师而言,先需要记住各种分析法,以及结合分析工具怎么实现;对于高级数据分析师而言,需要掌握商业方法论、回归分析、判别分析、时间序列等等。
数据分析师和数据挖掘工程师又是不同的概念,对于数据挖掘工程师而言,不仅需要掌握各种数据挖掘模型,比如逻辑回归、支持向量机、线性回归、贝叶斯模型、决策树模型、集成学习、神经网络,还需要掌握真正的“方法论”,也就是CRISP-DM、SEMMA、挖掘9律等等。
为什么这么说?因为数据分析实际上并没有业界普遍接受的方法论,甚至都不能叫方法论,只能说对某种分析方法大家各有各的叫法,比如数据分析师比较熟悉的理论——"AARRR模型",对用户运营叫“增长模型”或是“海盗模型”,对数据分析师叫"AARRR模型"或漏斗模型,对数据产品经理来说叫“客户生命周期模型”。甚至对这些方法来说只是解决某个局部问题的,相当于搭建一个网站,各种各样的组件只能叫方法,有的人用了一系列组件把它总结一个流程,另一个也总结一个流程,但它们都不是公认的标准。然而对于数据挖掘(更常用于大数据或工业界),是有业界公认的完整解决项目标准的,比如CRISP-DM、SEMMA。做产品的、做用户的、做数据的面向的对象不同,思路自然是不同的。所以作为数据分析小白应该正确甄别,各取所需。
下面我们详细解释一下我们能常见到的一些概念,你就能明白它们都是干什么用的,也就知道了你需要哪些、怎么用。
1.统计方法论(不是方法论,只是方法)
这类方法论主要包括描述分析、回归分析、判别分析、时间序列分析、ARIMA模型、ABtest等从统计学来的术语。无论是数据分析还是数据挖掘都是从数据里发现某种规律,也就是从样本数据(你所能得到的数据都是样本数据)来推理总体数据(总体是永远无法被全部看到的)的某些规律或特征,然后我们再利用这些规律来预测指导我们还未得到的但是想得到的另一部分样本数据的特征,比如大数据杀熟,就是利用它掌握你已有的数据来判断你的行为规律。而统计学是最早形成关于数据问题的研究的专门学问,所以现在很多方法大都来源于统计学。
贾俊平老师的《统计学》定义了数据分析方法可分为描述统计和推断统计两种方法,描述统计研究的是数据如何收集、处理、汇总、图表描述、概括与分析等,推断统计是研究如何利用样本数据推断总体数据。这可以说是最权威的定义了。
我们常说的描述统计分析都是这里的一方面,分别对数据的分布状态、数字特征和随机变量之间关系研究。我们需要根据数据类型和对象数量来确定所用方法。下面这张图比较清楚展示各种方法:
统计推断是基于描述性统计基础上的方法,主要是参数估计、假设检验、随机过程和判别分析,它解决问题的步骤与上面相比更加复杂和系统。下面这张图展示了这些方法:
2.商业方法论(不是方法论,只是方法)
这类包含了很多成熟了方法模型,不仅有PEST、波特五力模型、SWOT、4P、5W2H,还有波士顿矩阵、SPACE矩阵、三四矩阵等等,这些分析模型大都是商业实践总结出的经典模型,它们的实用性和针对性很强,从品牌、营销、管理、战略、用户角度提炼出的抽象模型。它给我们提供了分析问题的思路,但是对大部分数据从业者来说是用不到的,而针对咨询公司或大公司的管理者。这就是这些分析方法对数据从业者的定位,大家都需要了解,但是一辈子可能都用不到。还有一个问题是这些模型虽然也是基于数据,但是数据从业者计算、挖掘这种利用数据,而是管理者或专家基于数据的经验判断。下面这张图展示了这些经典方法:
当然,如果你是”PPT“级别的数据分析师,这些商业模型套路是要准备的,显得高大上,但是往往不“实用”。
3.常用“方法论”(不是方法论,只是方法)
接下来就是数据分析小白耳熟能详的常用“方法论”了。如果功课做得好的,张口就来——平均分析法、对比分析法、交叉分析法、趋势分析法、结构分析法、异常分析法、关联分析、聚类分析、漏斗分析、杜邦分析等等,还有很多。对于运营、HR、财务、数据分析师等来说最容易使用也是最常使用的。但是有一个问题是什么时候用什么,该用哪些不该用哪些常常会让人疑惑,也没人告诉你有什么标准。但是作为数据分析自己还是需要一个分类标准,把经常性的方法整理归类,方便日后再使用,你有了全部分析方法就会避免遗漏了分析角度。下面这张图展示了这些方法的应用角度:
我们在分析数据时,往往应该从描述、比较、趋势、占比、相关等角度进行,而且这些角度也不是孤立的,会产生多重作用和功能。我们分析趋势也会进行比较,看结构时也会进行比较或者看趋势。
3.挖掘方法论(业界公认的标准,是方法论)
厘清了上面的各种“方法论”之后,我们再来看实际“方法论”长什么样。不同于上面五花八门的方法,下面这些数量不多,但是是用的比较成熟的理论。主要有CRISP-DM、SEMMA、挖掘9律、DMAIC方法、AOSP-SM等。先来看一个数据:
这张图是著名的数据科学技术网站KDnuggets上民意调查得到的关于数据分析、数据挖掘的方法论(methodology)的排名。可以看到排在第一位的就是CRISP-DM,第三位SEMMA,第二位的“My own"表示的是自己的方法论。下面这张图左边是另一个数据科学网站的排名,你也可以看到CRISP-DM排在第一位,而且长期排在第一位。可以看到其实对于方法论,数据从业者其实是有特定指认的,不是所有的方法都叫方法论。
什么是CRISP-DM?它的全称(cross-industry standard process for data mining), 即为"跨行业数据挖掘标准流程"。此KDD过程模型于1999年欧盟机构联合起草的数据挖掘项目的标准化方法,也是业内公认的数据挖掘与分析的通用方法论。它的主要流程如下图展示:
通过了解CRISP-DM,我们应该明白了所谓的方法论是什么,它是一个完整、通用、可行的流程和框架,无论是数据分析还是数据挖掘,都有这么一个商业理解、数据收集、数据处理、分析/建模、应用/部署的过程。
实际上,我们想找方法论无非就是想搞清楚我该做什么、怎么做、怎么确保它是正确的,也就是说想建立一套自己的分析/挖掘套路,那么其实对于数据分析师还是数据挖掘工程师都可以从先这个流程建立自己的框架。然后需要用到什么具体的方法可以从上面找,一步一步组合,就可以形成自己的方法论。下面结合上面的各种分析方法提供了一个简要的流程框架:
需要注意的是,CRISP-DM是一个环形过程,而这个过程虽然是是线性过程,但实际上也需要反反复复验证和调整。这里所有介绍都只是框架,把几乎所有分析、挖掘方法都囊括进来。我将在后续文章里逐一介绍这些方法和模型如何使用,并且还会有完整案例。
最后欢迎大家关注我,我是拾陆,搜索公众号“二八Data”,更多技术干货持续奉献。