Task2 数据分析

numpy和pandas学习

在做EDA探索性分析之前，在b站学习numpy和pandas的相关操作
https://www.bilibili.com/video/BV1DE411y7nz?from=search&seid=13074020152708262351

EDA步骤

对于数据的初步分析：样本数量，训练集数量，是否有时间特征，是否是时序问题，特征的含义，特征数据类型（str，int，float，time），特征的缺失况，特征的均值方差情况。
- 缺失值处理，填充还是舍去。nan存在的个数是否真的很大，如果很小一般选择填充，如果使用lgb等树模型可以直接空缺，让树自己去优化，但如果nan存在的过多、可以考虑删掉。
- 异常值分析，剔除还是用正常值填充。
分析标签（预测值）的分布情况。
特征分析

数据集分析

Field Description
SaleID 交易ID，唯一编码 从0开始，没有意义
name 汽车交易名称，已脱敏
regDate 汽车注册日期，例如20160101，2016年01月01日
model 车型编码，已脱敏
brand 汽车品牌，已脱敏
bodyType 车身类型：豪华轿车：0，微型车：1，厢型车：2，大巴车：3，敞篷车：4，双门汽车：5，商务车：6，搅拌车：7
fuelType 燃油类型：汽油：0，柴油：1，液化石油气：2，天然气：3，混合动力：4，其他：5，电动：6
gearbox 变速箱：手动：0，自动：1
power 发动机功率：范围 [ 0, 600 ]
kilometer 汽车已行驶公里，单位万km
notRepairedDamage 汽车有尚未修复的损坏：是：0，否：1
regionCode 地区编码，已脱敏
seller 销售方：个体：0，非个体：1 类别特征严重倾斜
offerType 报价类型：提供：0，请求：1 类别特征严重倾斜
creatDate 汽车上线时间，即开始售卖时间
price 二手车交易价格（预测目标）
v系列特征匿名特征，包含v0-14在内15个匿名特征

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Task2 数据分析