Pandas是基于Numpy的一种工具,主要是为了解决数据分析任务创建的。提供了大量能使我们快速便捷地处理数据的函数和方法。pandas 基于两种数据类型:Series和DataFrame。
1.Series。Series是pandas最基本的对象,只能存储同样的数据类型。类似于numpy的一维数组,没有一般说的行或者列的概念。不同的是,Series可为索引自定义标签。Series是DataFrame的某一行或某一列。
2.DataFrame.DataFrame是一个二维的表结构,类似于excel的数据表,可以存储不同的数据类型。横向和纵向都会有自己的标签。
3.数据合并
除了concat外,还可以通过join和merge进行数据的合并。
4.数据预处理
数据预处理,一般包括对缺失数据(dropna())、重复数据(drop_duplicates())的处理。
5.数据处理(分组聚合等)
初级的数据处理,主要是指通过groupby()分组和pivot()透视对数据进行分组,以及通过各聚合函数对分组后的数据进行聚合的操作。
知识点1:分组。数据分组后生成为DataFrameGroupBy类型。
知识点2:数据透视表。pivot和groupby都是用来进行分组,功能差不多。
知识点3:聚合函数
知识点4:匿名函数
知识点5:map,apply和applymap。apply函数是pandas所有函数中自由度最高的函数。
知识点6:where和mask
补充:多层索引