使用Pandas进行数据操作的时候,有时需要分组将数据错位进行操作。
在数据分析中经常遇到需要分组使用a列的第n行数据与去b列的第n+1行数据进行对比或者计算的要求,下面是我使用pandas解决该问题的方法。这个时候可以通过操作Index来实现。不过Pandas针对这种情况已经提供了一种方法了,就是shift函数。定义如下:
pandas.DataFrame.shift
DataFrame.shift(self,periods=1,freq=None,axis=0,fill_value=None)[source]
Shift index by desired number of periods with an optional time freq.
When freq is not passed, shift the index without realigning the data. If freq is passed (in this case, the index must be date or datetime, or it will raise a NotImplementedError), the index will be increased using the periods and the freq.
比如我们要分析一个汽车的形式记录,需要对比每个位置的前一个点和后一个点的情况,如下代码即可:
df1['x_pre']=df1.groupby('CARID')['x'].shift(1)
df1['x_next']=df1.groupby('CARID')['x'].shift(-1)
df1['y_pre']=df1.groupby('CARID')['y'].shift(1)
df1['y_next']=df1.groupby('CARID')['y'].shift(-1)