登录注册写文章

Pandas学习

Pandas学习

立一个flag这周认真再看numpy, pandas, matplotlib的文档，认真做笔记。供自己以后看，希望能帮到其他人吧（会慢慢更新！）

pandas的数据都可以类比于字典，这样的结构比较容易理解，但是对计算机操作就比较麻烦，可能这大概是它比ndarray要慢的原因吧

Series

名字	功能
Series.index	这不是一个方法，而是一个attrs,所有后面没有接字符（如果出现了用()这样的方法，说明你这个其实是一个callable的，东西，但是这个其实不是callable,因为是一个array）
Series.values	记得s不要漏了返回的也是一个array,但是却是内容组成
Series['index']	通过index来访问数据，这个index虽然你可以自己添加了很多index,但是默认通过数字的那种编码还是存在的。但是你要是用了数字的版本的新index，就会已新版本为主。换句说，每一次都先看看你自己定义的那种。（相当于，有两套index访问策略，有浮点数的那种也就只能通过默认的index进行访问了，但要是默认的在自定义中出现了，那就GG了）（对了，最好不要设置浮点数的index，会报keyerror的）
dict转Series	默认使用key作为Index，Value作为Value
也可以自己设置index	要是在设置的index在dict中没有，就会自动补全，顺序默认按照设定的index顺序(但是dict中有的index，就一定要是在自定义中的index存在才行)
pd.isnull(Series)	返回的也是一个Series，但是值变成了bool，这个判断value是不是NaN。但是Key还是一样的，都是Series本身自带的index
Series1 + Series2	返回值会按照index进行排序，会找到对应的index的value进行相加。要注意的是，Series检查到默认的值为NaN 。如果有一者为NaN，那么加起来也是NaN
Series.name	Series 对象本身的名字，默认是none
Series.index.name	设置index对象的名字（字段名）
Series > value	返回一个btype为bool的Series对象（换成 >= / == 之类的肯定都是一样的啦）

DataFrame 可以看作是对于同一index的Series集合

方法	解释
DataFrame(dict)	pd.DataFrame({'column1':[1,2,3], 'column2':['a', 'c', 'd']}) 注意D和F要大写
DataFrame(array)	pd.DataFrame(np.array([(1, 'a'), (2, 'c'), (3, 'd')]) ,column=['column1', 'column2'])
DataFrame.index	attr，查看index(最左边的那一列)
DataFrame.columns	attr，查看列名
DataFrame.values	attr，获取所有表格内部信息（返回ndarray)
DataFame['index']	这个index可以是列名，如果是数字，就会默认使用行号来做拿到行，这个要留意。返回的是一个Series
DataFrame.index	前面的index不是指index，而是任意的列名。具体拿到某一个列的列参数attr
DataFrame.iloc[ , ]	通过行列数字进行查找（要求是具体数字）通过这个也可以看到对每一个横着的Series都是有一个对象名称，具体是index对应的值。可省略逗号，默认是对行进行操作，跟下面的类似
DataFrame.loc[ , ]	这时候就需要写具体的行列名字了（这个跟上面的操作都支持切片）
DataFrame['column'] = value	如果value是一个单一的值的话，就会将整一列的元素全部变为value。如果是长度刚刚好的list，也就会完全替代。而且list长度只能刚刚好，否者会报错
del DataFrame['column']	这样的方式来进行删除某一列
DataFrame['column1'] = list	前面的list就换成一个具体的list就好了，这样就会自动添加一个。在列的最右端
DafaFrame.index.min()	这里的index不是index，而是具体的某一列的列名。然后用一个min函数作用一下就好了。拿出来的这一列就是一个Series。当然取一行，得到的也是一个Series
DataFrame[DataFrame.index >= value]	常用的筛选方法。要清楚上面的Series如果是用括号符的时候，得到的是一个bool值的Series对象。类比于看上面的pd.isnull(Series)函数
DataFrame.index >= value	返回的是有对象名的Series，对象名就是index。但是上面的取法跟对象名没有关只是得到了一个对应的bool值Series，你甚至换一个bool的list都是可以这样筛选出来的。本质上就是想要得到一个bool序列，通过这个序列来生成DataFrame

最后编辑于：2018.01.28 23:20:28

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Numpy，Pandas学习笔记（一）
最近在学习数据分析，对学的进行了些整理，方便以后查看。欢迎交流。下面的代码用到的模块都事先做了导入： impor...
不_初心阅读 1,275评论 1赞 3
Pandas学习笔记
数据结构 1. Series Series简介及创建 Series创建带标签的一维数组，其中可以包含任意数据类型（...
小白将阅读 1,118评论 0赞 4

Pandas 学习笔记
Pandas 中的两个最重要的数据结构是 Series 和 DataFrame，其约定的引用方式为： Series...
拓季阅读 226评论 0赞 4
pandas学习笔记1
一、pandas数据结构 1、Series Series有两个属性,values和index，values表示Se...
迪_7761阅读 657评论 0赞 1
43 开学记
又到了一年一度新学年，家家转眼间也开始升入预备班。前两年上幼儿园的时候还会早上赖床，哄好久才会睡眼惺忪地起床，接...
悠爷阅读 250评论 1赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文