视频课程链接(B站):
https://www.bilibili.com/video/BV1qb411M7ew?from=search&seid=17304626768180188631
PPT和数据:
百度网盘:https://pan.baidu.com/s/1CsifSRidi9iIXyxIe0tHFg 提取码:sjqx
1. 引子:
确定做麻辣香锅(确定数据分析的目的)、买菜(获取数据)、择菜洗菜切菜(清洗数据)、炒菜(探索数据)、拍照发朋友圈(建模)
2. 数据清洗的定义:
(维基百科)从记录表、表格、数据库中检测、纠正、删除出损坏或者不准确记录的过程。
3. 数据清晰流程:
数据的读写>数据的探索与描述>数据简单处理>重复值处理>缺失值处理&异常值处理&文本/字符串处理&时间序列数据的处理
4. 数据清洗常用方法:
1)数据的读写
利用pandas库,pd.read_csv('文件路径‘),pd.read_excel('文件路径)
2)数据的探索与描述
df.info(),df.describe()
3)数据简单处理
去除数据间的空格;英文字母大小写转换
4)重复值处理
duplicated(),drop_duplicates()
5)缺失值处理
删除缺失值;均值填补法、向前填充/向后填充、模型填补法如随机森林等
6)异常值处理
删除异常值的记录;作为缺失值处理;平均值修正、盖帽法修正;不处理
7)文本/字符串处理
去除前后空格处理;处理中间有“,”、“()”之类的数据:replace(',','');正则表达式提取所需数据
8)时间序列数据的处理
将系统时间格式化;系统时间和时间戳相互转换;年月日提取