2021-01-24 Python Pandas知识点整理

Pandas是基于Numpy的一种工具，主要是为了解决数据分析任务创建的。提供了大量能使我们快速便捷地处理数据的函数和方法。pandas 基于两种数据类型：Series和DataFrame。

1.Series。Series是pandas最基本的对象，只能存储同样的数据类型。类似于numpy的一维数组，没有一般说的行或者列的概念。不同的是，Series可为索引自定义标签。Series是DataFrame的某一行或某一列。

2.DataFrame.DataFrame是一个二维的表结构，类似于excel的数据表，可以存储不同的数据类型。横向和纵向都会有自己的标签。

3.数据合并

除了concat外，还可以通过join和merge进行数据的合并。

4.数据预处理

数据预处理，一般包括对缺失数据（dropna()）、重复数据(drop_duplicates())的处理。

5.数据处理（分组聚合等）

初级的数据处理，主要是指通过groupby()分组和pivot()透视对数据进行分组，以及通过各聚合函数对分组后的数据进行聚合的操作。

知识点1:分组。数据分组后生成为DataFrameGroupBy类型。

知识点2:数据透视表。pivot和groupby都是用来进行分组，功能差不多。

知识点3:聚合函数

知识点4:匿名函数

知识点5：map,apply和applymap。apply函数是pandas所有函数中自由度最高的函数。

知识点6:where和mask

补充：多层索引