菊安酱-数据清洗

视频课程链接(B站):

https://www.bilibili.com/video/BV1qb411M7ew?from=search&seid=17304626768180188631

PPT和数据:

百度网盘:https://pan.baidu.com/s/1CsifSRidi9iIXyxIe0tHFg 提取码:sjqx

1. 引子:

确定做麻辣香锅(确定数据分析的目的)、买菜(获取数据)、择菜洗菜切菜(清洗数据)、炒菜(探索数据)、拍照发朋友圈(建模)

2. 数据清洗的定义:

(维基百科)从记录表、表格、数据库中检测、纠正、删除出损坏或者不准确记录的过程。

3. 数据清晰流程:

数据的读写>数据的探索与描述>数据简单处理>重复值处理>缺失值处理&异常值处理&文本/字符串处理&时间序列数据的处理

4. 数据清洗常用方法:

1)数据的读写

利用pandas库,pd.read_csv('文件路径‘),pd.read_excel('文件路径)

2)数据的探索与描述

df.info(),df.describe()

3)数据简单处理

去除数据间的空格;英文字母大小写转换

4)重复值处理

duplicated(),drop_duplicates()

5)缺失值处理

删除缺失值;均值填补法、向前填充/向后填充、模型填补法如随机森林等

6)异常值处理

删除异常值的记录;作为缺失值处理;平均值修正、盖帽法修正;不处理

7)文本/字符串处理

去除前后空格处理;处理中间有“,”、“()”之类的数据:replace(',','');正则表达式提取所需数据

8)时间序列数据的处理

将系统时间格式化;系统时间和时间戳相互转换;年月日提取

5.文本清洗案例

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容