利用Python Pandas进行数据预处理

Pandas的数据结构：

Series：一维数组，与Numpy中的一位Array类似。二者与Python基本的数据结构List也很相近，区别是List可以放不同的数据类型，而Array和Series只能放相同的数据类型。

Time-Series：以时间为索引的Series。

DataFrame：二维表格型的数据结构。可以将DataFrame理解为Series的容器。

Panel：三维数组，可以理解为DataFrame的容器。Panel很少使用，但确是很重要的三维数组。

Panel4D：Panel4D是像Panel一样的4维容器，作为N维容器的一个测试。

PanelND：PanelND是一个拥有factory集合，可以创建像Panel4D一样N维命名容器的模块。

Series:

Series是一个类似一维的数组对象，包含一个数组的数据（任何Numpy类型）和一个与数组关联的数据标签，被叫做索引。Series对象主要有两个属性：index和values，如果传给构造器的是一个列表，则index的值是从0递增的整数，如果传递的是一个类字典的键值对结构，就会生成index-value对应的Series。比如：

DataFrame

一个DataFrame类似一个表格，类似电子表格的数据结构，包含一个经过排序的列表集，他们每一个都可以有不同的类型值（数字、字符串、布尔），DataFrame有行和列的索引；他可以看作一个Series的字典

和Series一样，他的索引也是自动分配，并且对列进行了排序,也可以给列一个顺序，让它按照传递的顺序排列

如果传递了一个行，但不在data中，他的结果将为NA值

在DataFrame中的一列可以通过字典记法或属性来检索

利用Python Pandas进行数据预处理

推荐阅读更多精彩内容