目标:给定某电信机构实际业务中的相关客户信息,包含69个与客户相关的字段,其中“是否流失”字段表明客户会否会在观察日期后的两个月内流失。任务目标是通过训练集训练模型,来预测客户是否会流失,以此为依据开展工作,提高用户留存。
因隔离没有身份证照片暂未实名认证成功,所以先拿着题线下练习练习
深刻觉得一看就会,一练就废,还是得多实践哇!
进入正题啦:
1.导库
2. 导入数据
2.1基础信息查看
df_train.head()
df_test.head()
2.2数据信息查看
通过 .info() 简要可以看到对应一些数据列名,以及NAN缺失信息
df_train.info()
df_train.isnull().sum() 查看缺失值
2.3通过 .describe() 可以查看数值特征列的一些统计信息
3.特征和标签构建
3.1提取数值类型特征列名
做数据分析时,需要对特征进行归类–类别型还是数值型DataFrame.select_dtypes(include=None, exclude=None);include, exclude:包括/排除的dtypes或字符串的选择。
数值型特征: 包括int64,float64;类别型特征object;布尔型特征(bool);
3.2构建训练和测试样本
4.模型训练和预测
训练结果: