kaggle网站上的教程
https://www.kaggle.com/sohier/tutorial-accessing-data-with-pandas/notebook
准备工作:
1、下载数据
2、安装juypter notebook
第一部分 索引
1、读取数据并展示前三行数据(代码在原网站都有,这里不单独放了)
2、索引:单行数据
方法一:最简单的方法是.iloc,和列表的索引一样,第一行的索引是0
方法二:用.loc方法,针对上面自定义的索引列Park Code
注意点:
3、索引:多行数据
如果要获得多行数据,可以传入多个索引值,但是要注意的是,获取数据的顺序与索引值的顺序相同。
方法一:.iloc
方法二:.loc
方法三:和列表一样对数据进行切片
4、索引:列
方法一:列名作为索引
方法二:把列名作为dataframe的一个属性处理
这种方法要保证列名中没有空格,仅使用基本字符,并且不与dataframe方法重名。
为使方法二更加通用,我们可以对列名进行统一处理。把空格用“_”代替,因为Pandas区分大小写,所以名称也应转换为小写。
5、索引:行列
6、索引:单个值
注意点:若传入值改为[1],则返回结果也改变
第二部分:筛选
用pandas对数据进行筛选时所用的方法是布尔索引
1、筛选state为'UT'的数据
2、逻辑运算符
~ 表示否定
| 表示或
& 表示与
筛选纬度大于60或面积大于10^6的公园
筛选时可以使用更复杂的表达式,包括lambda函数
例:筛选名称由四个单词构成的公园
3、isin 和 isnull
筛选位于ME、TX、UT这三个州的公园
head()默认显示前5行