骆驼~骆驼~骆驼~
此笔记主要是数据挖掘的主要成熟技术以及在数据化运营中的主要应用
---------------正式开始---------------------
在企业的商业实战中,数据分析师分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是运用统计技术还是用挖掘技术来解决这个问题。
-----------统计分析与数据挖掘的主要区别---------------
主流的观点普遍认为,数据挖掘是统计分析技术的延展和发展,如果一定要加以区分,数据挖掘在如下几个方面与统计分析形成了比较明显的差异:
1.统计分析的基础之一就是 概率论,在对数据统计分析时,分析人员常常需要对数据分布和变量的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海亮、杂乱的数据,数据挖掘技术有明显的应用优势。
2.统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的终点在于预测结果,很多时候并不会从结果中产生明确的函数关系式。最典型的例子“神经网络”挖掘技术,它里面隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数时如何对自变量进行组合的。在实战应用中常常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也就影响了模型在实践应用中的可理解性和可接受度。不过,从实战角度考虑,只要模型能正确预测客户行为,能为精细化运营提供准确的细分人群和目标客户,业务部门不了解模型的技术细节,又有何不可?
3.在实践应用中,统计分析常常需要分析人员先做假设或者判断,然后利用数据分析技术来验证假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。
两者思维方式并不相同,正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般会有两种以上不同的思路和算法去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。
-----------干货,数据挖掘的主要成熟技术---------------
1.决策树
最常用的三种决策树算法分别是CHAID、CART、ID3
CHAID (CHi-square Automatic Interaction Detector)卡方自动相互关系检测
CHAID依据局部最优原则,利用卡方检验来自选择对因变量最用影响的自变量,CHAID应用的前提是因变量为类别型变量(Category)。
CART(Classification and Regression Tree) 分类与回归树
CART的分割逻辑 与 CHAID相同,每一层的划分都是基于对所有自变量的检验和选择上的。但是,CART采用的检验标准不是卡方检验,而是基尼系数等不纯度的指标。两者最大的区别在于CHAID采用的是局部最优原则,即结点之间互不相干,一个结点确定了之后,下面的生长过程完全在结点内进行。而CART则着眼于总体优化,即先让树尽可能地生长,然后再回头来对树进行修剪,这一点类似于统计分析中回归算法里的反向选择。CART是二分的,每个结点分出两枝,并且在树的生长过程中,同一个自变量可以反复使用多次(分割),这些都是不同于CHAID的特点。另外,如果是自变量存在数据缺失的情况,CART的处理方式将会是寻找一个替代数据来代替缺失值,而CHAID则是把缺失值作为单独的一类数值。
ID3(Iterative Dichotomiser)迭代二分器
基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂属性,其结果就是对分割后的结点进行分类所需的信息量最小,这也是一种划分纯度的思想。
决策树技术在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景,决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法,即通过决策树的分割来筛选有效地输入自变量。
关于决策树的实战和详细介绍会在后期中讲述。
2.神经网络
简单来讲,“神经网络”就是通过输入多个非线性模型以及不同模型之间的加权互联(加权的过程在隐蔽层完成),最终得到一个输出模型。其中隐蔽层所包含的就是 非线性函数。
目前最主流的神经网络算法是 反馈传播(Backpropagation),该算法在多层前向型(Multilayer Feed-Forward)神经网络上进行学习,而多层前向型又是一个输入层,一个或多个隐蔽层以及一个输出层组成的。
神经网络在数据化运营中的主要用途体现在:作为分类、预测问题的典型支持技术,它在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。
3.回归
回归分析包括线性回归,主要是指多元线性回归和罗辑斯蒂回归。其中,在数据化运营中更多使用的是罗辑斯蒂回归,它又包括响应预测、分类划分等内容。
4.关联规则(Association Rule)
在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型,关联规则数据挖掘的主要目的是找出数据集中的频繁模式(Frequent Pattern),即多次重复出现的模式和并发关系(Cooccurrence Relationships),即同时出现的关系,频繁和并发关系也称作关联(Association)。
5.聚类
针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群租内部各对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度。
聚类在数据化运营中的主要用途体现在:即可以直接作为模型对观察对象进行群体划分,为业务方的精细化运营提供具体的细分依据和响应的运营方案建议,又可在数据处理阶段用作数据探索工具,包括发现离群点、孤立点,数据降维的手段和方法,通过聚类发现数据间的深层次的关系等。
6.贝叶斯分类方法 (Bayesian Classifier)
贝叶斯分类方法是非常成熟的统计学分类方法,它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。
贝叶斯分类方法在数据化运营中的主要用于分类问题的归类等应用场景。
7.支持向量机(Support Vector Machine)
作为一种新的分类方法,支持向量机以结构风险最小的原则。在线性的情况下,就在原空间寻找两类样本的最优分类超平面。在非线性情况下,它使用一种非线性的映射,将原训练集数据映射到较高纬度上。在新的纬度上,它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射,两类数据总可以被超平面分开。
支持向量机主要用在预测、分类这样的实际分析需求场景中。
8.主成分分析(Principal Components Analysis)
主成分分析通过线性组合将多个原始变量合成若干个主成分,这样每个主成分都变成了原始变量的线性组合。这种转变的目的,一方面可以大幅降低原始数据的纬度,同时也在此过程中发现原始数据属性之间的关系。
将主成分进行推广和延伸即成为因子分析(Factor Analysis),因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子;也就是说,采用少数几个因子描述多个指标之间的联系,将比较密切的变量归为同一类中,每类变量即是一个因子。自所以称其为因子,是因为它们实际上是不可测量的,只能解释。
主成分分析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面,同时作为统计学里的基本而重要的分析工具和分析方法,它们在一些专题分析中也有着广泛的应用。
9.假设检验(Hypothesis Test)
假设检验的基本原理就是小概率事件原理,即观察小概率事件在假设成立的情况下是否发生。如果在一次试验中,小概率事件发生了,那么说明假设在一定的显著性水平下不可靠或者不成立;如果在一次试验中,小概率事件没有发生,那么也只能说明没有足够理由相信假设是错误的,但是也并不能说明假设是正确的,因为无法搜集到所有的证据来证明假设是正确的。
在数据化运营实践中,假设检验最常用的场景就是用于“运营效果的评估”上。
~~~~~~~~~
以上讲到的数据挖掘技术只说了理论,在我get到了实战的应用之后,我会写到笔记中详细展开讨论;