python 数据分析笔记

这里讲到的都是平时和sql,以及数据透视表十分类似的功能。数据分析会经常用到。

1.去重函数  .unique()

Input:


output:


2.计数函数  .value_counts()

input

Series 版


output


Data Frame 版


统计一个frame中的所有元素在每个数列 QUE中 的个数


3.条件判断函数 .isin(['b','c'])


output:


处理空值

1.判断空值的函数 .isnull() NAN, None 都适用


output


.dropna() 对存在缺失值进行过滤,等同于.notnull()

Series 版


output


DataFrame 版


(1)只要存在NA就会给DROP 掉,如果改成 how='all' 只drop掉全部都是NA的


(2)按照列进行drop AXIS=1 .dropna(axis =1 ,how='all')


output


(3) 设置对缺失值的容忍度,  thresh


填充数据

(1).fillna({1:0.5}) ,可以按照columns 选择填充在哪一列

df.fillna(0) =  _.=df.fillna(0,inplace=True)



(2)顺延填充 method = 'ffill',limit 限制阈值


output


或者填充某个统计函数值 .fillna(data.mean())


output



层次化索引

(1)存在多个INDEX


output


(2)多种的定位方式

input


output


(3)数据透视表模式 .unstack()      解开数据透视表模式 .stack()


output


(4) 复合index 和 复合columns 的情况,给 index 和 column 命名


output


(5) 多重index变换位置


out put


(6) sort_index(level=1) 按照那个level 进行排序


(7)跟数据透视表一样进行横排和纵排的sum


(8) 将frame的两列作为index进行计算,同样类似于数据透视表


output


(9) 将columns 作为index,且仍然保持作为数据列 ,drop=false


output


(10)  .reset_index 将层次性index释放


output


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容