import pandas as pd
df = pd.DataFrame(……)
说明:以下“df”为DataFrame对象。
df['col1']:获取col1列的数据
df.col1:同样是获取col1列的数据
两者的区别是df[['col1','col2',…]]可以同时获取多列,而dif.col1只能获取1列。
原始数据
df = pd.DataFrame({'b':[-1,-2,3,2],'a':[4,3,-2,1],'c':[1,-3,8,-2]},index=[2,0,1,-3])
b a c
2 -1 4 1
0 -2 3 -3
1 3 -2 8
3 2 1 -2
1. 对DataFrame对象或者Series对象用关系运算符(><==!=)作用后,返回的是相同维度的由bool值(False或True)组成的对象。
df>0
b a c
2 False True True
0 False True False
1 True False True
3 True True False
这里df表示整个对象,df>0对每个元素判断,并返回同维bool值组成的对象。
df.b>0 或者df['b']>0
2 False
0 False
1 True
3 True
Name: b, dtype: bool
这里df.b>0 或者df['b']>0都表示对b列每个数据进行判断,返回一列bool值。
df[['b','c']]>0
b c
2 False True
0 False False
1 True True
3 True False
同时判断b和c列中元素,返回两列bool值
(df.b>0)&(df.c>0)
2 False
0 False
1 True
3 False
dtype: bool
b列元素>0且同时满足c列元素也>0,可见只有序号为“1”的行满足条件
注意:用逻辑运算符(&|~)时,前后条件都要带上括号()。
2. 根据关系运算符(><==!=)返回的结果抽取数据
因为关系运算符返回的是由bool值组成的结果 ,因此本质上是根据bool值选值。
(1)根据判断条件从整个df中选取,即抽出的都是整行数据
形如:df[ 限制条件1&限制条件2… ]或df[ 限制条件1 ][ 限制条件2]…
df[df.b>0] 或者df[df['b']>0]
b a c
1 3 -2 8
3 2 1 -2
在df中选择b列元素>0的所有行。
df[ (df.b>0)&(df.c>0) ]
b a c
1 3 -2 8
在df中选择选择b和c同时大于0的那些行。
df[ df[['b','c']]>0 ]
b a c
2 NaN NaN 1.0
0 NaN NaN NaN
1 3.0 NaN 8.0
3 2.0 NaN NaN
这种情况特别要注意,并不是指b和c列要同时>0,两者是“并|”逻辑关系。
(2)根据判断条件从df的部分列中选取,即抽出的都是指定列的数据
形如:df[ ['col1','col1',…] ][ 限制条件1&限制条件2… ]或df.col[ 限制条件1&限制条件2… ]
或df[ ['col1','col1',…] ][ 限制条件1 ][ 限制条件2 ]…或df.col[ 限制条件1 ][ 限制条件2 ]…
df['a'][df.b>0]
1 -2
3 1
Name: a, dtype: int64
首先判断b列元素>0的行,即1行和3行,然后抽取这两行中a列的数据,即-2和1。
即判断条件[df.b>0]限制了在哪些行中寻找。
df[['a','b']][(df.b>0) & (df.c>0)]
a b
1 -2 3
同上面完全一样,先找出b和c列同时>0的行(即1行),然后抽出a和b列的值,即-2和3。