首先,如果我们想要加载pandas程序包并开始使用它,我们先要导入该程序包,pandas的别名为pd,因此按pd所有pandas文档的标准做法加载pandas。
pandas数据表表示形式
如果我想存储泰坦尼克号的乘客数据,对于许多乘客,我知道姓名(字符),年龄(数字)和性别(男/女)数据。
要将数据手动存储在表中,要创建一个DataFrame。当使用Python的列表字典时,字典键将用作列标题,而每个列表中的值将用作DataFrame的列。
Data是一种二维数据结构,它可以在列中存储不同类型的数据(包括字符、整数、浮点数、分类数据等)。它类似于电子表格、SQL表或R中的data.frame。
1.该表有3列,每列都有一个列标签,列标签分别是Name、Age和Sex
2.Name由文本数据组成,每个值都是一个字符串,Age是数字,Sex是文本数据
在电子表格中,数据的表格表示形式非常相似:
DataFrame中每一列都是一个Series
如果只是对Age列中的数据进行操作,可以这样做:
当选择一个pandas的单个列DataFrame,结果是pandas系列。如果要选择列,要在方括号[ ]之间使用列标签。
如果你熟悉Python字典,则单列的选择与基于键的字典值的选择非常相似。
我们也可以从头开始创建系列:
pandas系列没有列标签,因为它只是DataFrame的单个列,系列确实具有行标签。
使用DataFrame或Series进行某些操作
比如我想知道乘客的最大年龄
我们可以通过DataFrame选择Age列并应用Max()来执行
或者使用Series:
pandas提供了许多功能,每个功能都有一个特定的方法,可以应用到DataFrame或Series中。但由于方法是函数,所有不要忘记使用圆括号()。
如果我们对数据表中数值数据的一些基本统计信息感兴趣
descryibe()提供了DataFrame中数字数据的快速概述。但由于Name和Sex列是文本数据,因此默认情况下descryibe()方法不考虑这些数据。
许多pandas操作返回一个DataFrame或一个Series。而descryibe()则是返回pandas序列的pandas操作的一个Series。
如果你想学习Python,但是找不到学习路径和资源,欢迎来指尖编程。