1、背景 目的:平台每日活跃用户没有显著提升,但用户构成比例中新访客比率逐渐上升,老用户的留存率逐渐下降,根据需求进行付费用户流失情况作一个专题分析,内容包括:流失用户识别,...
![240](https://cdn2.jianshu.io/assets/default_avatar/14-0651acff782e7a18653d7530d6b27661.jpg?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
1、背景 目的:平台每日活跃用户没有显著提升,但用户构成比例中新访客比率逐渐上升,老用户的留存率逐渐下降,根据需求进行付费用户流失情况作一个专题分析,内容包括:流失用户识别,...
1. duplicated() 和 drop_duplicated() duplicated() 检测重复值,drop_duplicated() 去掉重复值。 1.1 查看重...
1. 分组,透视,交叉 2. 分组 多层级的数据逻辑 导入英雄数据: 分组: 第一步:groupby,拿到一个对象。 通过对象的groups的属性可以拿到一个字典 第二步:将...
1.plt颜色设置 常用的颜色: 2. Seaborn颜色设置 调色板:(1)sns.set_palette() (2) sns.color_palette() 一般用调色...
知识点 1.置信水平 2. 1. 数据集下载 2. 以鸢尾花数据和泰坦尼克号为例 2.1 线型图 iris = sns.load_dataset('iris')iris.h...
1.集成学习原理 Bagging思想,把强变弱,一起出主意,投票或平均。Boosting思想,通过线性组合把弱变强。 2. Boosting实现 2.1 导入数据,KNN建模...
1. 3种绘图 pandas 和 seaborn 绘图都是基于 matplotlib的 变化趋势用线性图,对应关系用散点图,大小比较用条形图,数据分布用直方图,数据组成用饼图...
1. stacking 功能:模型融合 bagging 和 boosting基于同一个算法。stacking不受方法限制,可以把不同的方法封装成1个投票器,一起工作。 2.实...
1. KMeans原理 使用欧式距离,相似的事物的距离测量更短,不相似的距离更长。 分类和聚类的区别 两者的目标不一样,操作对象不一样分类:拿到点,进行类别的划分,属于哪个类...
1.聚类分析 2.聚类的基本使用 2.1 思路 1.生成有2个特征,分布有3个中心的假数据2.用散点图展示3.训练预测并展示 2.2 实现 2.2.1导包 import nu...
1.图例绘制 2种方法 导入各包: 2.展示吸烟者和不吸烟者的平均消费账单 注: ci 是置信水平的意思,在此处只能设置95,即置信水平为95% ,对应接近2倍的标准差。 1...
1.图形种类 seaborn 常用 基于matplotlib, 解决分组问题。【横轴,纵轴,数据集】往往画的聚合指标图像barplot() 条形图scatterplot(...
1.知识点 2.实现 2.1 导包和读取数据集 import numpy as npimport pandas as pdfrom pandas import Series,...
1.知识点 2.实现 2.1 导包 from sklearn.tree import DecisionTreeClassifierimport seaborn as snsi...
1. 多输出问题 多个y值,y也为VSM结构 from sklearn.tree import DecisionTreeRegressorX(VSM) yX Y(VSM)...
1. 数据集鸢尾花分析 2.用决策树分析 2.1 导包 基于Cart树的实现 只划分二叉树 from sklearn.tree import DecisionTreeClas...
1. 决策树 https://blog.csdn.net/dorisi_h_n_q/article/details/82787295[https://blog.csdn.ne...
1. 知识点 所有字段都为离散的,犯罪是有原因的,因素和结果是有概率关系。 2.实现 2.1导包 import numpy as npimport pandas as pdf...
1.混淆矩阵 接受者操作特征(Receiver Operating Characteristic Curve,ROC)曲线是显示分类器真正率和假正率之间折中的⼀种图形化⽅法,...