第一天玩简书,纪念下

前途未定,忧之。几日看某牛牛好友在玩简书,遂亦有心投入。

       这几天再看利用python进行数据分析。虽然python我也才学习了一个月,但是一直苦于没有一个实战去做一个项目。现在有了这个机会,肯定好好把握下。

       下面应该贴比较多大神的笔记,以记录自己的学习过程,给自己鼓舞,同时,也供其他学习的同学一起学习。

使用pandas进行数据清洗

目录:

数据表中的重复值

duplicated() :找出重复数据

drop_duplicated():删除重复数据

数据表中的空值/缺失值

isnull()、notnull() :都为找到空值,前一个有就是True,后一个没有为True

dropna()     :将每列中的空格直接除去

fillna()         :将指定列的空格补上你想要的数

数据间的空格

查看数据中的空格:value_counts()

去除数据中的空格:map(str.strip)

大小写转换:map(str.upper):转成大写

                   map(str.lower):转成小写

                   map(str.title):首字母大写

数据中的异常和极端值

replace():异常值替换

更改数据格式

astype():更改数据格式

to_datetime():日期格式的数据更改

数据分组

cut():对数据进行分组并将分组后的名称添加到数据表

数据分列

split()数据分列操作


数据为何要清洗:因为得到的数据大都有重复,缺损等状况,所以我们想从这堆数据里面找到有用信息就必须要对数据进行相关处理,这就是清洗。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容