《Python数据分析入门》第一部分——数据结构

数据结构的定义

数据结构是计算机存储、组织数据的方式。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。——资料来源于百度百科

这里主要讲两中数据结构，分别为：序列（Series）和数据框（Data Frames）,它们是python的第三方库pandas里的数据结构，后续的数据分析经常用到这两种数据结构。

序列（Series）

数学上，序列是被排成一列的对象（或事件）；这样每个元素不是在其他元素之前，就是在其他元素之后。

在pandas中，序列可以理解为是用于存储一行或者一列的数据，以及与之相关的索引的集合。

构造序列的基本语法：

s=pd.Series(data,index=index)

例如：

>>>import pandas as pd #导入pandas 模块，as关键字是对pandas进行重命名，方便后面的引用

>>>x = pd.Series([1,2,'apple',3.3],index=['first','second','third','fourth'])

在Spyders中运行结果如下图：

数据框(DataFrame)

DataFrame是带有标签的二维数据结构，列的类型可能不同。你可以把它想象成一个电子表格或SQL表，或者 Series 对象的字典。它一般是最常用的pandas对象。像 Series 一样，DataFrame 接受许多不同类型的输入：

一维数组，列表，字典或 Series 的字典

二维 numpy.ndarray 等等；

基本语法，如下：

data=pd.DataFrame{'one':pd.Series([1.,2.,3.],index=['a','b','c']), ....}

例如：

>>>import pandas as pd

>>>person = pd.DataFrame({'age':[32,21,56],'name':['Jon','Tom','Sidy']})

输出结果如下图：

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。