Task2 数据分析

numpy和pandas学习

在做EDA探索性分析之前,在b站学习numpy和pandas的相关操作
https://www.bilibili.com/video/BV1DE411y7nz?from=search&seid=13074020152708262351

EDA步骤

  1. 对于数据的初步分析:样本数量,训练集数量,是否有时间特征,是否是时序问题,特征的含义,特征数据类型(str,int,float,time),特征的缺失况,特征的均值方差情况。

    • 缺失值处理,填充还是舍去。nan存在的个数是否真的很大,如果很小一般选择填充,如果使用lgb等树模型可以直接空缺,让树自己去优化,但如果nan存在的过多、可以考虑删掉。
    • 异常值分析,剔除还是用正常值填充。
  2. 分析标签(预测值)的分布情况。

  3. 特征分析

数据集分析

Field Description
SaleID 交易ID,唯一编码 从0开始,没有意义
name 汽车交易名称,已脱敏
regDate 汽车注册日期,例如20160101,2016年01月01日
model 车型编码,已脱敏
brand 汽车品牌,已脱敏
bodyType 车身类型:豪华轿车:0,微型车:1,厢型车:2,大巴车:3,敞篷车:4,双门汽车:5,商务车:6,搅拌车:7
fuelType 燃油类型:汽油:0,柴油:1,液化石油气:2,天然气:3,混合动力:4,其他:5,电动:6
gearbox 变速箱:手动:0,自动:1
power 发动机功率:范围 [ 0, 600 ]
kilometer 汽车已行驶公里,单位万km
notRepairedDamage 汽车有尚未修复的损坏:是:0,否:1
regionCode 地区编码,已脱敏
seller 销售方:个体:0,非个体:1 类别特征严重倾斜
offerType 报价类型:提供:0,请求:1 类别特征严重倾斜
creatDate 汽车上线时间,即开始售卖时间
price 二手车交易价格(预测目标)
v系列特征 匿名特征,包含v0-14在内15个匿名特征

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容