1.导入pandas
In [1]: import pandas as pd
2.关于DataFrame,类似一个Excel表格,row代表行,column代表列,其中在DataFrame每个column都是一个 Series
3. DataFrame是一种二维数据结构,可以在列中存储不同类型的数据(包括字符,整数,浮点值,分类数据等),下面创建一个DataFrame
In [2]: df = pd.DataFrame({
...: "Name": ["Braund, Mr. Owen Harris",
...: "Allen, Mr. William Henry",
...: "Bonnell, Miss. Elizabeth"],
...: "Age": [22, 35, 58],
...: "Sex": ["male", "male", "female"]}
...: )
...:
In [3]: df
Out[3]:
Name Age Sex
0 Braund, Mr. Owen Harris 22 male
1 Allen, Mr. William Henry 35 male
2 Bonnell, Miss. Elizabeth 58 female
4.显示指定列中的数据,注意使用列标签[]
In [4]: df["Age"]
Out[4]:
0 22
1 35
2 58
Name: Age, dtype: int64
5.手动创建一个Series
In [5]: ages = pd.Series([22, 35, 58], name="Age")
In [6]: ages
Out[6]:
0 22
1 35
2 58
Name: Age, dtype: int64
6.在DataFrame使用max()函数查找列中最大值
In [7]: df["Age"].max()
Out[7]: 58
7.在Series使用max()函数查找列中最大值
In [8]: ages.max()
Out[8]: 58
8.对数据表中基本信息的统计
In [9]: df.describe()
Out[9]:
Age
count 3.000000
mean 38.333333
std 18.230012
min 22.000000
25% 28.500000
50% 35.000000
75% 46.500000
max 58.000000
9.注意事项
选择列是记得使用标签[],使用方法时记得使用标签(),方法可以直接使用在DataFrame或Series上