数据结构 索引对象
· pandas的索引对象负责管理轴标签和其他元数据(比如轴名称等)。
构建Series或DataFrame时,所用到的任何数组或其他序列的标签都会被转换成一个Index。
· Index对象是不可修改的(immutable),因此用户不能对其进行修改。
不可修改性非常重要,因为这样才能使Index对象在多个数据结构之间安全共享。
· pandas中主要的index对象
· Index的方法和属性
#获取index'
obj = Series(range(3), index = ['a', 'b', 'c'])
index = obj.index
print(index[1:])
# '使用Index对象'
index = Index(np.arange(3))
obj2 = Series([1.5, -2.5, 0], index = index)
print(obj2)
print(obj2.index is index)
#'判断列和索引是否存在'
pop = {'Nevada':{20001:2.4, 2002:2.9},
'Ohio':{2000:1.5, 2001:1.7, 2002:3.6}}
frame3 = DataFrame(pop)
print('Ohio' in frame3.columns)
print('2003' in frame3.index)
s = Series(['a', 'b', 'c'], index=['No.1', 'No.2', 'No.3'])
ind1 = s.index
print(ind1)
s2 =Series(['a', 'b', 'c', 'd'], index=['No.1', 'No.2', 'No.3', 'No.4'])
ind2 = s2.index
print(ind2)
#difference 计算索引的差集
re1t = ind1.difference(ind2)
print(ret1)
ret2 = ind2.difference(ind1)
print(ret2)
#append(Indexs) #连接另一个Index对象,产生一个新的Index
ret3 = ind1.append(ind2)
print(ret3)
#intersection(Index) 计算交集
ret4 = ind1.intersection(ind2)
print(ret4)
#union(Index) 计算并集
ret5 = ind1.union(ind2)
print(ret5)
#isin(Index) 检查是否存在与参数索引中,返回bool型数组
ret6= ind1.isin(ind2) #[ True True True]
ret7= ind2.isin(ind1)
print(ret6)
print(ret7)
#delete(i) 删除索引i处元素,得到新的Index,不修改源index
ret8 = ind1.delete(0)
print(ret8)
#drop(str) 删除传入的值,得到新Index,不修改源index
ret9 = ind1.drop('No.1')
print(ret9)
#insert(i,str) 将元素插入到索引i处,得到新Index,不修改源index
ret10 = ind1.insert(0, 'XXX')
print(ret10)
#is_monotonic() 当各元素大于前一个元素时,返回true
ret11 = ind1.is_monotonic #True
print(ret11)
#is_unique() 当Index没有重复值时,返回true
ret12 = ind1.is_unique #True 说明ind1中没有重复值
print(ret12)
#unique 计算index中唯一值的数组,即去重后的index
ret13 = ind1.unique
print(ret13)
基本功能 重新索引
· 创建一个适应新索引的新对象,该Series的reindex将会根据新索引进行重排。
如果某个索引值当前不存在,就引入缺失值
· 对于时间序列这样的有序数据,重新索引时可能需要做一些插值处理。
method选项即可达到此目的。
· reindex函数的参数
#'重新指定索引及顺序'
obj = Series([4.5, 7.2, -5.3, 3.6], index = ['d', 'b', 'a', 'c'])
print(obj)
obj2 = obj.reindex(['a', 'b', 'd', 'c', 'e'])
print(obj2)
print(obj.reindex(['a', 'b', 'd', 'c', 'e'], fill_value = 0)) # 指定不存在元素的默认值
#'重新指定索引并指定填元素充方法'
obj3 = Series(['blue', 'purple', 'yellow'], index = [0, 2, 4])
print(obj3)
print(obj3.reindex(range(6), method = 'ffill'))
print(obj3.reindex(range(6), method = 'bfill'))
#'对DataFrame重新指定索引'
frame = DataFrame(np.arange(9).reshape(3, 3),
index = ['a', 'c', 'd'],
columns = ['Ohio', 'Texas', 'California'])
print(frame)
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
print(frame2)
#重新指定column'
states = ['Texas', 'Utah', 'California']
print(frame.reindex(columns = states))
#'对DataFrame重新指定索引并指定填元素充方法'
print(frame.reindex(index = ['a', 'b', 'c', 'd'],
method = 'ffill'))#,columns = states
print(frame.ix[['a', 'b', 'd', 'c'], states])