上回,妹子和大家讲过“画像类需求”的万能分析框架,它对应的是聚类任务。这次,妹子和大家介绍下“分类需求”的万能分析框架。同样,这个名字也是妹子自己起的,大家不用纠结,只是一类需求的代称。
分类需求
分类需求概指数据中已经有明确的标签时,需要做的数据分析与挖掘的需求。举个例子:业务在app内投放了一则广告,回收的数据就是有标签的数据【如果埋点正常的话】。而且,标签还不止一类,如点击的标签:点击的样本是正类,没有点击的是负类;加入购物车的标签:加入购物车的样本是正类,没有加的是负类;支付的标签:支付的样本是正类,没有支付的是负类;退货的标签:退货的样本是正类,没有退货的是负类;投诉的标签:投诉的样本是正类,没有的是负类;好评的标签:好评的样本是正类,没有好评的是负类........
分析框架
妹子罗列了这么多类的标签,相信大家对需求属于哪类任务已经了然于心了。是的,没有错,这类需求就是分类任务,咱可以用分类模型进行挖掘。
用下分类模型,就算一个分析框架了?
当然不是了!
分类模型只是解题方法,分析框架涉及的远不止这些,它包括以下几个方面【“画像类需求”的万能分析框架只讲述了解题方法,也是需要加上背景,总览,特征重要性和画像的】:
1.背景
分析的数据背景,业务目标等。无论是分析报告,挖掘报告,还是开发报告,首先就是开门见山的阐述这份报告的背景;
2.总览
总览是给出这份数据的概括数据,如样本总量,正样本比例。举个例子,点击标签的总览数据,样本总量就是曝光量;正样本比例就是点击率;
3.特征重要性
特征重要性是为了选择特征,当罗列了成百上千个特征后,咱需要对特征的重要性进行一个排序【有时只会选择排名靠前的特征进行下面的步骤,因为恐计算资源不够。当然,如果资源是足够的,就可以采用所用特征了。但是,后者并不被行业所采纳,毕竟在数据界,浪费计算资源和浪费粮食一样可耻】。选择特征的模型有很多,如:
1.Removing features with low variance:按照方差来选择,用方差阈值来控制选择的特征数量;
2.Univariate feature selection:按照单变量统计检验结果选择,用统计检验值来控制选择的特征数量;
3.Recursive feature elimination:对初始特征集合做重要性排序,删除重要性最低的特征,再做一轮重要性排序,删除重要性最低的特征,....,直至特征数量达到咱设定的数值;
4.Feature selection using SelectFromMode:用模型选择特征,主要是通过模型 fit 之后的 coef_ or feature_importances_ 属性来选择特征的,如decisionTree,randomForest,XGB等;
大家可视情况选择,妹子比较喜欢地4种,用树模型选择特征后,再定义神经网络模型进行拟合。
4.解题结果
解题结果这步是为了把特征和正样本比例之间的相关关系可视化出来。还是点击率的例子,这里需要可视化的基础内容有两块:一块是看单特征不同区间上的点击率;一块是看组合特征不同区间上的点击率。
单特征里,离散特征每个值就是一个区间,统计每个区间的点击率就行;
连续特征划分区间需要单独处理下:可以用等频划分,也可以用等宽划分。妹子更喜欢用等频划分【就是用分位数划分区间】,再统计每个区间的点击率就行。
组合特征这块,可解释性强的莫过于树模型,通过可视乎树模型就可以划分组合特征的不同区间【每个叶子节点对应的路径就是一个区间】,而且通过叶子节点的数值可以很容易的计算出其点击率。
5.画像
画像这步又是一个总括,对正样本做一个画像,负样本做一个画像,把挖掘结果聚焦起来,而做画像的工具莫过于词云图。
6.收益、成本、ROI测算
这步不是一定要有的,但有的话,整个挖掘会更贴近业务,也会更上一层。这一步的常规操作是计算每个样本的成本与收益,再汇总计算ROI:
报告
说完上面的分析框架,报告框架也自然出来了。没错,就是上面的几个模块。最后,咱只要按部就班执行数据挖掘的步骤即可:提取数据,处理数据,定义模型,训练模型,评估模型,可视化模型结果,过程中所有报告里需要的内容都有涉及了。
So easy ~ 咱用半天不到的时间,就可以完成分析框架,报告模板,数据挖掘代码框架。
接到这类需求,再也不用抓耳挠腮了,不急不躁,完全hold住,下班!