pandas库之索引对象*

pandas的索引对象负责管理标签和其他元数据（比如轴名称等）。构建Series或DataFrame时，所用到的任何数组或其他序列的标签都会被转换成一个Index：

In [76]: obj = pd.Series(range(3), index=['a', 'b', 'c'])

In [77]: index = obj.index

In [78]: index
Out[78]: Index(['a', 'b', 'c'], dtype='object')

In [79]: index[1:]
Out[79]: Index(['b', 'c'], dtype='object')

Index对象是不可变的，因此用户不能对其进行修改，虽然不能修改但是可以通过操作产生新的index：

index[1] = 'd'  # TypeError

不可变可以使index对象在多个数据结构之间安全共享：

In [80]: labels = pd.Index(np.arange(3))

In [81]: labels
Out[81]: Int64Index([0, 1, 2], dtype='int64')

In [82]: obj2 = pd.Series([1.5, -2.5, 0], index=labels)

In [83]: obj2
Out[83]: 
0    1.5
1   -2.5
2    0.0
dtype: float64

In [84]: obj2.index is labels
Out[84]: True

注意：虽然用户不需要经常使用index的功能，但是因为一些操作会生成包含被索引化的数据，理解它们的工作原理是很重要的。好好学，好好看，基础很重要。

除了类似于数组，Index的功能也类似一个固定大小的集合：

In [85]: frame3
Out[85]: 
state  Nevada  Ohio
year               
2000      NaN   1.5
2001      2.4   1.7
2002      2.9   3.6
In [86]: frame3.columns
Out[86]: Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [87]: 'Ohio' in frame3.columns
Out[87]: True

In [88]: 2003 in frame3.index
Out[88]: False

与python的集合不同，pandas的index可以包含重复的标签：

In [89]: dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])

In [90]: dup_labels
Out[90]: Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

选择重复的标签，会显示所有的结果。
每个索引都有一些方法和属性，它们可以用于设置逻辑并回答有关该索引所包含的数据的常见问题。表5-2列出了这些函数。

表格index操作的方法待补充。

文章代码引用自：《利用Python进行数据分析·第2版》第5章 Pandas入门
作者：SeanCheney
感谢SeanCheney同意引用。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

pandas库之索引对象*

pandas库之索引对象*

相关阅读更多精彩内容

友情链接更多精彩内容