Pandas操作Excel学习笔记（1）——准备知识

一、Pandas简介

Pandas 是 Python 语言的一个扩展程序库，用于数据分析。Pandas 是一个开放源码、BSD 许可的库，提供高性能、易于使用的数据结构和数据分析工具。Pandas 可以对各种数据进行运算操作，比如归并、再成形、选择，还有数据清洗和数据加工特征，被广泛应用在学术、金融、统计学等各个数据分析领域。
Pandas 名字衍生自术语 "panel data"（面板数据）和 "Python data analysis"（Python 数据分析）。
Pandas 一个强大的分析结构化数据的工具集，基础是 Numpy（提供高性能的矩阵运算）。
Pandas 可以从各种文件格式比如 CSV、JSON、SQL、Microsoft Excel 导入数据。

二、Pandas的数据结构

1. Series

Series ：一种类似于一维数组的对象，它由一组数据（各种Numpy数据类型）以及一组与之相关的数据标签（即索引）组成，可以保存任何数据类型。构造函数如下：

import pandas as pd
pd.Series( data, index, dtype, name, copy)

参数说明：

data：一组数据(ndarray 类型)。
index：数据索引标签，如果不指定，默认从 0 开始。
dtype：数据类型，默认会自己判断。
name：设置名称。
copy：拷贝数据，默认为 False。

2. DataFrame

DataFrame ：一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，它可以被看做由 Series 组成的字典（共同用一个索引）。

以上图片来源于网络

构造函数如下：

import pandas as pd
pandas.DataFrame( data, index, columns, dtype, copy)

参数说明：

data：一组数据(ndarray、series, map, lists, dict 等类型)。
index：索引值，或者可以称为行标签。
columns：列标签，默认为 RangeIndex (0, 1, 2, …, n) 。
dtype：数据类型。
copy：拷贝数据，默认为 False。

构造DataFrame常见的三种方式：

通过二维列表进行创建，例如：

import pandas as pd
list_2d = [[1,2], [3,4],[5,6]]
df = pd.DataFrame(list_2d,index = ['x','y','z'],columns = ['A','B']) # index为行索引（行标签），columns为列索引（列标签）
print(df)

通过字典进行创建，例如：

import pandas as pd
dict_1 = {'A':[1,3,5],'B':[2,4,6]}
df = pd.DataFrame(dict_1,index = ['x','y','z'])
print(df)

此时，字典中的key值等同于DataFrame中的列标签columns。

通过读取Excel等文件中的表进行创建，例如：

import pandas as pd
df = pd.read_excel('.\\demo.xlsx')
print(df)

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Pandas操作Excel学习笔记（1）——准备知识

Pandas操作Excel学习笔记（1）——准备知识

一、Pandas简介

二、Pandas的数据结构

1. Series

2. DataFrame

相关阅读更多精彩内容

友情链接更多精彩内容