pandas索引 :选取行和列数据的方法

selectstudent_id,student_namefromexam_scoreswherechinese>=90andmath>=90

上面的 SQL 语句表示从考试成绩表 (exam_scores) 中,筛选出语文和数学都大于或等于 90 分的所有学生 id 和 name。学习 pandas 数据获取,推荐这种以数据处理的目标为导向的方式,而不是被动的按 pandas 提供的loc,iloc的语法中,一条条顺序学习。

本篇我们要分析的关于销售数量和金额的一组数据,数据存放在 csv 文件中。示例数据我在github上放了一份,方便大家对照练习。

选择列

以下两种方法返回Series类型:

importpandasaspddf=pd.read_csv('sample-salesv3.csv')df.name# 或者df['name']

如果需要返回DataFrame格式,使用 list 作为参数。为了方便说明,给出在 jupyter notebook 中显示的界面。

如果需要选取多列,传给DataFrame一个包含列名的 list

选择行

假设我们要筛选quantity < 0的所有记录:

按多条件筛选的处理方式。假设想筛选quantity < 0并且unit price > 50的所有记录:

代码:

criteria=(df['quantity']<0)&(df['unit price']>50)df[criteria].head()

在 pandas 中,AND 条件的运算符为&,OR 条件的运算符为|。假设想筛选所有quantity > 30unit price > 50的记录:

代码:

criteria=(df['quantity']>30)|(df['unit price']>50)df[criteria].head()

基于字符串的记录筛选

如果筛选条件为基于字符串,可以使用用Series.str.xxx方法,主要有startswith,endswith和contains等。举一个例子,筛选出所有name含有White的记录:

代码:

criteria=df['name'].str.contains('White')df[criteria].head()

这里解释一下 pandas布尔索引(boolean indexing) 的概念。布尔索引的意思是首先构建一个与DataFrame的 index 长度相同的一个 boolean 向量 (boolean vector),这个向量中只包含 True 或者 False,布尔索引是一个Series。然后DataFrame在筛选的时候,基于DataFrame的行索引,当布尔索引相同行索引所在行的 value 为 True 时,DataFrame的这一行就包含在筛选之中,否则就排除在外。

为了能看得更加清晰,我们把上面的例子用另外一个方法来展示。创建一个新列:is_selected,这一列是一个布尔索引。

df['is_selected']=df['name'].str.contains('White')

我们看到,is_selected由 True 和 False 构成。

构建了is_selected列之后,通过df[df['name'].str.contains('White')]筛选与下面的语句作用相同:

df[df['is_selected']==True]

可以把df['name'].str.contains('White')这个布尔索引理解为构建了一个新列,然后基于这一列进行筛选。

基于 DateTime 类型的记录筛选

如果列的类型是DateTime类型,比如本示例的date列。pandas 读取 csv 文件时,date 列是 str 类型,所以我们先将 date 列转换成 datetime 类型,然后基于 pandas 的Timestamp类型构建筛选条件。

# 将 date 列转换成 datetime 类型df['date']=pd.to_datetime(df['date'])# 筛选条件为日期大于 2014/4/1criteria=df['date']>pd.Timestamp(2014,4,1)df[criteria].head()

同时选择行和列

如果基于本篇所说的模式,同时选择行和列,最简单的方法是组合,比如先基于行构建DataFrame,然后再基于这个DataFrame选取需要的列:

where=df['name'].str.contains('White')cols=['name','quantity','unit price','ext price']df[where][cols].head()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 我佛了呀,好几天没上来,今天想查个东西 搜索框一顿找,愣是没找到 这简书还能用吗? 就当故事会一样看首页的推荐呗?...
    Mr哎呦喂阅读 1,767评论 9 7
  • 最近在做离职前最后的工作,还没有一个正式的交接的人,尽可能的把工作往前做,每天都加班赶进度,可是我发现,我白天的效...
    丘丘小太阳阅读 58评论 0 0
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,606评论 28 53
  • 信任包括信任自己和信任他人 很多时候,很多事情,失败、遗憾、错过,源于不自信,不信任他人 觉得自己做不成,别人做不...
    吴氵晃阅读 6,231评论 4 8
  • 怎么对待生活,它也会怎么对你 人都是哭着来到这个美丽的人间。每个人从来到尘寰到升入天堂,整个生命的历程都是一本书,...
    静静在等你阅读 5,024评论 1 6