2020-08-08--Pandas-08--筛选操作

在数据处理过程中,经常会遇到要筛选不同要求的数据,通过 Pandas 可以轻松时间,这一篇我们来看下如何使用 Pandas 来完成数据筛选吧。

Pandas 中除了支持 Python 和 Numpy 的索引运算符[]和属性运算符.来访问数据之外,还有很多其他的方式来访问数据,我们一起来看看吧。

import pandas as pd
import numpy as np


index = pd.Index(data=["Tom", "Bob", "Mary", "James", "Andy", "Alice"], name="name")

data = {
    "age": [18, 30, np.nan, 40, np.nan, 30],
    "city": ["Bei Jing ", "Shang Hai ", "Guang Zhou", "Shen Zhen", np.nan, " "],
    "sex": [None, "male", "female", "male", np.nan, "unknown"],
    "birth": ["2000-02-10", "1988-10-17", None, "1978-08-08", np.nan, "1988-10-17"]
}

user_info = pd.DataFrame(data=data, index=index)

# 将出生日期转为时间戳
user_info["birth"] = pd.to_datetime(user_info.birth)
print(user_info)
#         age        city      sex      birth
# name
# Tom    18.0   Bei Jing      None 2000-02-10
# Bob    30.0  Shang Hai      male 1988-10-17
# Mary    NaN  Guang Zhou   female        NaT
# James  40.0   Shen Zhen     male 1978-08-08
# Andy    NaN         NaN      NaN        NaT
# Alice  30.0              unknown 1988-10-17

字典式get访问数据(行/列/具体数据值)

我们都知道,Python 中的字典要获取 value 时可以通过 get 方法来获取,对于 Series 和 DataFrame 也一样,他们一样可以通过 get 方法来获取。

# 获取得到所有年龄相关的这一列的信息,结果为一个 Series
c = user_info.get("age")
print(c)
# name
# Tom      18.0
# Bob      30.0
# Mary      NaN
# James    40.0
# Andy      NaN
# Alice    30.0
# Name: age, dtype: float64

# 从包含所有的年龄信息的 Series 中得到 Tom 的年龄
user_info.get("age").get("Tom")
# 18.0

可以使用get连续获取。

属性访问

除了可以通过 get 方法来获取数据之外,还可以通过属性的方式来访问,同样完成上面的功能,来看下如何通过属性访问的方式来实现。

c = user_info.age
print(c)
# name
# Tom      18.0
# Bob      30.0
# Mary      NaN
# James    40.0
# Andy      NaN
# Alice    30.0
# Name: age, dtype: float64

c = user_info.age.Tom
print(c)
# 18.0

这两种属于同一种操作。

切片访问(一定范围的行/列/数据值)

在学习 Python 时,会发现列表的切片操作非常地方便,Series 和 DataFrame 同样也有切片操作。

对于 Series 和DataFrame来说,通过切片可以完成选择指定的行,或者列。

筛选行

# 获取年龄的前两行
c = user_info.age[:2]
print(c)
# name
# Tom    18.0
# Bob    30.0
# Name: age, dtype: float64

# 获取所有信息的前两行
c = user_info[:2]
print(c)
#        age        city   sex      birth
# name
# Tom   18.0   Bei Jing   None 2000-02-10
# Bob   30.0  Shang Hai   male 1988-10-17

# 所有信息每两行获取一次数据
c = user_info[::2]
print(c)
#        age        city     sex      birth
# name                                     
# Tom   18.0   Bei Jing     None 2000-02-10
# Mary   NaN  Guang Zhou  female        NaT
# Andy   NaN         NaN     NaN        NaT

# 对所有信息进行反转
c= user_info[::-1]
print(c)
#         age        city      sex      birth
# name                                       
# Alice  30.0              unknown 1988-10-17
# Andy    NaN         NaN      NaN        NaT
# James  40.0   Shen Zhen     male 1978-08-08
# Mary    NaN  Guang Zhou   female        NaT
# Bob    30.0  Shang Hai      male 1988-10-17
# Tom    18.0   Bei Jing      None 2000-02-10

筛选列

只需要将列名传入切片即可完成筛选。

c = user_info['age']
print(c)
print(type(c))         # # <class 'pandas.core.series.Series'>
# name
# Tom      18.0
# Bob      30.0
# Mary      NaN
# James    40.0
# Andy      NaN
# Alice    30.0
# Name: age, dtype: float64

筛选多个列,传入一个列表类型,列表中的每一项都是属性名(列名),不是切片操作,是直接获取。

c = user_info[['age','sex']]
print(c)
#         age      sex
# name
# Tom    18.0     None
# Bob    30.0     male
# Mary    NaN   female
# James  40.0     male
# Andy    NaN      NaN
# Alice  30.0  unknown
print(type(c))        # <class 'pandas.core.frame.DataFrame'>

通过数字筛选行和列----iloc[,]

通过切片操作可以完成筛选行或者列,如何同时筛选出行和列呢?

通过 iloc 即可实现, iloc 支持传入行和列的筛选器,并用 , 隔开。
格式:user/iloc[行,列],行/列可以是数字或者切片格式。

先来看下前几种的用法。

  • 在loc[]的[]中,有两个参数,分别为行和列的默认索引(位置)----0,1,2,...
  • 行的格式可以是单行(行号),多行[行号列表,行号切片],三种格式。
  • 列的格式与行的一致。
# 筛选出第一行数据
c = user_info.iloc[0]
print(c)
# age                       18
# city               Bei Jing
# sex                     None
# birth    2000-02-10 00:00:00
# Name: Tom, dtype: object

# 筛选出第二行第一列的数据
c = user_info.iloc[1,0]
print(c)
# 30.0

# 筛选出第二行、第一行、第三行对应的第一列的数据
c = user_info.iloc[[1, 0, 2], 0]
print(c)
# name
# Bob     30.0
# Tom     18.0
# Mary     NaN
# Name: age, dtype: float64

# 筛选出第一行至第三行以及第一列至第二列的数据
c = user_info.iloc[0:3, 0:2]
print(c)
#        age        city
# name                  
# Tom   18.0   Bei Jing 
# Bob   30.0  Shang Hai 
# Mary   NaN  Guang Zhou

通过名称筛选行和列 ----- loc[name,name]

虽然通过 iloc 可以实现同时筛选出行和列,但是它接收的是输入,非常不直观。

通过 loc可实现传入名称来筛选数据,loc 支持传入行和列的筛选器,并用 , 隔开。

先来看下前几种的用法:

  • 在loc[]的[]中,有两个参数,分别为行和列。
  • 行的格式可以是单行(行名),多行[行列表,行切片],三种格式。
  • 列的格式与行的一致。
# 筛选出名称为 Tom 的数据一行数据
c = user_info.loc["Tom"]
print(c)
# age                       18
# city               Bei Jing
# sex                     None
# birth    2000-02-10 00:00:00
# Name: Tom, dtype: object

# 筛选出名称为 Tom 的年龄
c = user_info.loc["Tom", "age"]
print(c)
# 18.0

# 筛选出名称在 ["Bob", "Tom"] 中的两行数据
c = user_info.loc[["Bob", "Tom"]]
print(c)
#        age        city   sex      birth
# name
# Bob   30.0  Shang Hai   male 1988-10-17
# Tom   18.0   Bei Jing   None 2000-02-10

# 筛选出索引名称在 Tom 到 Mary 之间的数据
c = user_info.loc["Tom": "Mary"]
print(c)
#        age        city     sex      birth
# name
# Tom   18.0   Bei Jing     None 2000-02-10
# Bob   30.0  Shang Hai     male 1988-10-17
# Mary   NaN  Guang Zhou  female        NaT

# 筛选出年龄这一列数据
c = user_info.loc[:, ["age"]]
print(c)
#         age
# name
# Tom    18.0
# Bob    30.0
# Mary    NaN
# James  40.0
# Andy    NaN
# Alice  30.0

# 筛选出所有 age 到 birth 之间的这几列数据
c = user_info.loc[:, "age": "birth"]
print(c)
#         age        city      sex      birth
# name
# Tom    18.0   Bei Jing      None 2000-02-10
# Bob    30.0  Shang Hai      male 1988-10-17
# Mary    NaN  Guang Zhou   female        NaT
# James  40.0   Shen Zhen     male 1978-08-08
# Andy    NaN         NaN      NaN        NaT
# Alice  30.0              unknown 1988-10-17

与切片以及iloc不同的是,loc中的切片区间是包含前后的。

布尔索引

在之前的学习中,我们学习了花式索引的概念,就是返回一个全是bool值的Series对象作为索引。

通过布尔操作我们一样可以进行筛选操作,布尔操作时,& 对应 and,| 对应 or,~ 对应 not。

当有多个布尔表达式时,需要通过小括号来进行分组。

  1. 筛选出age大于20的人
# 筛选出age大于20的人
c = user_info.age > 20
print(c)
# name
# Tom      False
# Bob       True
# Mary     False
# James     True
# Andy     False
# Alice     True
# Name: age, dtype: bool

cr = user_info[c]
print(cr)
#         age        city      sex      birth
# name
# Bob    30.0  Shang Hai      male 1988-10-17
# James  40.0   Shen Zhen     male 1978-08-08
# Alice  30.0              unknown 1988-10-17
  1. 筛选出年龄在20岁以上,并且性别为男性的数据
cr = user_info[(user_info.age >20 ) & (user_info.sex == 'male')]
print(cr)
#         age        city   sex      birth
# name                                    
# Bob    30.0  Shang Hai   male 1988-10-17
# James  40.0   Shen Zhen  male 1978-08-08

3.筛选出性别不为 unknown 的数据

user_info[~(user_info.sex == "unknown")]

4.除了切片操作可以实现之外, loc 一样可以实现。

c = user_info.loc[user_info.age > 20, ["age"]]
print(c)
#         age
# name       
# Bob    30.0
# James  40.0
# Alice  30.0

isin 筛选

isin是一种bool索引的一种特殊表达式。
Series 包含了 isin 方法,它能够返回一个布尔向量,用于筛选数据,然后将该表达式作为索引后,获取相应的数据。

1.筛选出性别属于 male 和 female的数据

# 筛选出性别属于 male 和 female的数据
bool = user_info.sex.isin(["male", "female"])
print(bool)
# name
# Tom      False
# Bob       True
# Mary      True
# James     True
# Andy     False
# Alice    False
# Name: sex, dtype: bool

c = user_info[user_info.sex.isin(["male", "female"])]
print(c)
#         age        city     sex      birth
# name
# Bob    30.0  Shang Hai     male 1988-10-17
# Mary    NaN  Guang Zhou  female        NaT
# James  40.0   Shen Zhen    male 1978-08-08

对于索引来说,一样可以使用 isin 方法来筛选。
2.筛选索引为Bob的数据项

c = user_info.index.isin(["Bob"])
print(type(c),c)
# <class 'numpy.ndarray'> [False  True False False False False]

c = user_info[user_info.index.isin(["Bob"])]
print(c)
#        age        city   sex      birth
# name                                   
# Bob   30.0  Shang Hai   male 1988-10-17

通过Callable筛选

loc、iloc、切片操作都支持接收一个 callable 函数,callable必须是带有一个参数(调用Series,DataFrame)的函数,并且返回用于索引的有效输出。

切片:

c = user_info[lambda df: df["age"] > 20]
print(c)
#         age        city      sex      birth
# name
# Bob    30.0  Shang Hai      male 1988-10-17
# James  40.0   Shen Zhen     male 1978-08-08
# Alice  30.0              unknown 1988-10-17

loc:

c = user_info.loc[lambda df: df.age > 20, lambda df: ["age"]]
print(c)
#         age
# name
# Bob    30.0
# James  40.0
# Alice  30.0

iloc:

c = user_info.iloc[lambda df: [0, 5], lambda df: [0]]
print(c)
#         age
# name
# Tom    18.0
# Alice  30.0

同样,支持lambda表达式的话,那么一定支持更复杂的自定义函数。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,744评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,505评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,105评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,242评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,269评论 6 389
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,215评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,096评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,939评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,354评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,573评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,745评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,448评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,048评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,683评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,838评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,776评论 2 369
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,652评论 2 354