数据分析与挖掘(七):“分类需求”的万能分析框架

上回,妹子和大家讲过“画像类需求”的万能分析框架,它对应的是聚类任务。这次,妹子和大家介绍下“分类需求”的万能分析框架。同样,这个名字也是妹子自己起的,大家不用纠结,只是一类需求的代称。

分类需求

分类需求概指数据中已经有明确的标签时,需要做的数据分析与挖掘的需求。举个例子:业务在app内投放了一则广告,回收的数据就是有标签的数据【如果埋点正常的话】。而且,标签还不止一类,如点击的标签:点击的样本是正类,没有点击的是负类;加入购物车的标签:加入购物车的样本是正类,没有加的是负类;支付的标签:支付的样本是正类,没有支付的是负类;退货的标签:退货的样本是正类,没有退货的是负类;投诉的标签:投诉的样本是正类,没有的是负类;好评的标签:好评的样本是正类,没有好评的是负类........

分析框架

妹子罗列了这么多类的标签,相信大家对需求属于哪类任务已经了然于心了。是的,没有错,这类需求就是分类任务,咱可以用分类模型进行挖掘。

用下分类模型,就算一个分析框架了?

当然不是了!

分类模型只是解题方法,分析框架涉及的远不止这些,它包括以下几个方面【“画像类需求”的万能分析框架只讲述了解题方法,也是需要加上背景,总览,特征重要性和画像的】:

1.背景

分析的数据背景,业务目标等。无论是分析报告,挖掘报告,还是开发报告,首先就是开门见山的阐述这份报告的背景;

2.总览

总览是给出这份数据的概括数据,如样本总量,正样本比例。举个例子,点击标签的总览数据,样本总量就是曝光量;正样本比例就是点击率;

3.特征重要性

特征重要性是为了选择特征,当罗列了成百上千个特征后,咱需要对特征的重要性进行一个排序【有时只会选择排名靠前的特征进行下面的步骤,因为恐计算资源不够。当然,如果资源是足够的,就可以采用所用特征了。但是,后者并不被行业所采纳,毕竟在数据界,浪费计算资源和浪费粮食一样可耻】。选择特征的模型有很多,如:

1.Removing features with low variance:按照方差来选择,用方差阈值来控制选择的特征数量;

2.Univariate feature selection:按照单变量统计检验结果选择,用统计检验值来控制选择的特征数量;

3.Recursive feature elimination:对初始特征集合做重要性排序,删除重要性最低的特征,再做一轮重要性排序,删除重要性最低的特征,....,直至特征数量达到咱设定的数值;

4.Feature selection using SelectFromMode:用模型选择特征,主要是通过模型 fit 之后的 coef_ or feature_importances_ 属性来选择特征的,如decisionTree,randomForest,XGB等;

大家可视情况选择,妹子比较喜欢地4种,用树模型选择特征后,再定义神经网络模型进行拟合。

4.解题结果

解题结果这步是为了把特征和正样本比例之间的相关关系可视化出来。还是点击率的例子,这里需要可视化的基础内容有两块:一块是看单特征不同区间上的点击率;一块是看组合特征不同区间上的点击率。

单特征里,离散特征每个值就是一个区间,统计每个区间的点击率就行;

连续特征划分区间需要单独处理下:可以用等频划分,也可以用等宽划分。妹子更喜欢用等频划分【就是用分位数划分区间】,再统计每个区间的点击率就行。

组合特征这块,可解释性强的莫过于树模型,通过可视乎树模型就可以划分组合特征的不同区间【每个叶子节点对应的路径就是一个区间】,而且通过叶子节点的数值可以很容易的计算出其点击率。

5.画像

画像这步又是一个总括,对正样本做一个画像,负样本做一个画像,把挖掘结果聚焦起来,而做画像的工具莫过于词云图。

6.收益、成本、ROI测算

这步不是一定要有的,但有的话,整个挖掘会更贴近业务,也会更上一层。这一步的常规操作是计算每个样本的成本与收益,再汇总计算ROI:

成本=消耗成本的概率\times 概率1的成本

收益=产生收益的概率\times 概率1的收益

ROI=收益\div 成本

报告

说完上面的分析框架,报告框架也自然出来了。没错,就是上面的几个模块。最后,咱只要按部就班执行数据挖掘的步骤即可:提取数据,处理数据,定义模型,训练模型,评估模型,可视化模型结果,过程中所有报告里需要的内容都有涉及了。

So easy ~ 咱用半天不到的时间,就可以完成分析框架,报告模板,数据挖掘代码框架。

接到这类需求,再也不用抓耳挠腮了,不急不躁,完全hold住,下班!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容

  • 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过...
    婉妃阅读 2,673评论 1 13
  • 机器学习术语表 本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (...
    yalesaleng阅读 1,964评论 0 11
  • A 准确率(accuracy) 分类模型预测准确的比例。在多类别分类中,准确率定义如下: 在二分类中,准确率定义为...
    630d0109dd74阅读 1,327评论 0 3
  • 本文编译自谷歌开发者机器学习术语表项目,介绍了该项目所有的术语与基本解释。 A 准确率(accuracy) 分类模...
    630d0109dd74阅读 1,998评论 0 1
  • 我咋没想到 以前做数学题的时候就会有这种感觉,一道难题没有解出来,看答案后恍然大悟,知识点并不陌生但就是解题的时候...
    Allenlll阅读 109评论 1 1