数据挖掘的指导思想是以业务为核心,思路为重点,挖掘技术为辅助的。
一、常见数据分析类型
(1)用户特征分析
通过对用户特征分析,实现对用户个性化服务对精细化运营。
(2)用户预测模型
使用算法等手段发现输入变量与目标变量之间的关系。
(3)运营群体活跃度分析
(4)用户路径分析
发现用户浏览方式,进而对用户分群,群体特征分析,或者产品改进,下一个页面对预测等。
(5)交叉销售模型
风险预测模型,找出可能流失等用户,通过优惠诱导等挽留;另一方面预测用户有下一步要购买的物品,主动引导和满足。通过历史数据挖掘关联商品组合和购买概率。
(6)信息质量模型
(7)服务保障模型
(8)用户分层模型
(9)交易模型
(10)信用风险模型
(11)商品推荐模型
(12)数据产品
(13)决策支持
二、模型评价指标
(1)ROC曲线
(2)Ks值
ks值是常用的判断二分类(预测)模型准确度的方法,来源于统计学中的Kolmogorov-Smirnov Test。ks值越大,那么模型能将正负样本分开的能力越大。通常Ks值大于0.2表示模型有好的预测能力。(3)lift值
lift值是最常用的模型评价方法,可根据业务需求不同,显示对应不同目标群体规模的模型效果,方便应用时挑选最佳当的受众群体规模。包含两个指标,响应率和捕获率。
首先把经过模型预测后的观察对象按照预测概率的分数从高到低进行排序。然后对排序后的对象按照均等的数量划分成10个或20个区间,这样各个区间可以被命名为前10%,20%的对象集合。
三、数据预处理
(1)缺失值处理
1)某数据对象多个属性缺失,去除该对象
2)某属性大量数值缺失,去除该属性
3)缺失值替换
如果是连续型数据或者区间型数据,中位数,众数,均值,最大值,最小值等替换。如果是类别型数据,众数或者给定新值。
4)利用模型预测
(2)异常值处理
四、机器学习流程
(1)数据抽取和清洗
取具有代表性的数据样本
(2)去除共线性
(3)分布转换
(4)自变量筛选
(5)模型搭建和分析
(6)模型落地和跟踪反馈
五、用户特征分析
(1)RFM分析方法
R代表客户消费新鲜度;F代表客户消费频度;M代表客户消费金额。三个变量按轻重顺序先后排列。客户消费新鲜度最具有价值。一般来说,每个属性里划分区间,可以是好,中,差等等级。
(2)聚类
(3)
六、运营效果检验
一般通过AB试验对照分析
七、漏斗模型和路径分析
(1)漏斗模型
漏斗分析用于分析关键节点的转化效果。
(2)路径分析
对用户网络行为进行追踪和记录,分析行为特点。用户产品优化和设计,用户频繁路径识别等。从而分析用户行为和心理活动等。并了解用户如何使用产品以及各个功能点的价值。
常见方法是:基于序列的关联规则;遍历算法;社会网络分析方法。
八、数据分析的一般步骤
做假设(大胆),定标准,做比较(不同时间,不同类型,竞品),看趋势,观全局,辨真伪(集中主要矛盾),下结论。
主要方法:
(1)SEMMA方法论
其他方法也大致这个流程。