Pandas的利剑DataFrame

零基础学Pyhton数据分析 >> Pandas >> DataFrame创建

前言

大家好,这里是零基础学Python数据分析系列。

这个系列所有的代码编写均是Python3版本。

喜欢的朋友们可以点个关注,有问题欢迎随时和我交流。

本文的内容是Pandas的核心数据结构DataFrame的创建。包括了怎样把字典和列表的数据结构转化成DataFrame的数据结构。

image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

DataFrame简介

如果说,Numpy、Pandas、Matplotlib是Python数据分析三剑客,那么DataFrame绝对是Pandas最好的利剑。

image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

简单理解:Pandas是编程界的Excel,DataFrame就是excel中一张表,对DataFrame操作,就是将excel表操作用Python代码来实现。

一个常规的DataFrame数据结构如下:

image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

第左边一列是它的索引(可以理解为是excel表的序号。但索引不一定是顺序的,也可以是重复、断续的),最上面一行是它的列名(就是每一列代表的含义)。

是不是非常的简单直观。

熟悉了DataFrame的结构后,让我们开始创建一个DataFrame吧。

DataFrame创建,pd.DataFrame()

导入Pandas包,并命名为pd。

import pandas as pd

创建一个空的DataFrame

创建一个完全空的DataFrame

输入:

df = pd.DataFrame()df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

啥也没有,因为是完全空的DataFrame。

创建一个空的DataFrame,带列名

输入:

df = pd.DataFrame(columns=['姓名', '性别', '年龄', 'Python成绩'])df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

参数columns:列表形式,可以指定创建的DataFrame的列名。

创建一个空的DataFrame,带索引

输入:

df = pd.DataFrame(index=['姓名', '性别', '年龄', 'Python成绩'])df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

参数index:列表形式,可以指定创建的DataFrame的索引。

到这里,就实现了用pd.DataFrame()函数创建一个空的DataFrame。

那么怎样将Python常用的其他数据类型转变成DataFrame呢。比如字典、列表如何转化成DataFrame呢?

image.jpg

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

让我们继续,看看怎样将字典和列表转化成DataFrame。

字典创建DataFrame

先创建一个常规的学生Python成绩的字典,注意字典的值是相同长度的列表

# 字典的值是相同长度的列表Student_dict = {'姓名':['张三', '李四', '王五', '赵六'],                '性别':['男', '女', '男', '女'],                '年龄':['20', '21', '19', '18'],                'Python成绩':['70', '80', '90', '50']}

字典创建DataFrame,字典的键变DataFrame的列名

输入:

df = pd.DataFrame(data=Student_dict)df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

直接把字典Student_dict放入pd.DataFrame()函数中,就可以转成DataFrame啦,只不过字典Student_dict的键会变成DataFrame的列名。

那么我希望字典的键可以变成DataFrame的索引应该怎么办呢?

字典创建DataFrame,字典的键变DataFrame的索引

非常简单,虽然pd.DataFrame()函数没有相关功能,但我们只需要把生成的DataFrame进行转置就可以啦。(DataFrame转置方式df.T)

输入:

df = pd.DataFrame(data=Student_dict).Tdf

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

上面介绍了字典的值是长度相同的列表时转DataFrame的方式,如果字典的值是长度不同的列表,会怎样呢?让我们来试一下。

字典的值是长度不同的列表时

再创建一个学生Python成绩的字典,只不过这次学生赵六的Python成绩缺失了。

# 字典的值是长度不相等的列表Student_dict_new = {'姓名':['张三', '李四', '王五', '赵六'],                    '性别':['男', '女', '男', '女'],                    '年龄':['20', '21', '19', '18'],                    'Python成绩':['70', '80', '90']}

输入:

df = pd.DataFrame(data=Student_dict_new)df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

报错啦,All arrays must be of the same length,所有数组必须具有相同的长度,看来字典转DataFrame,字典的值如果是列表,那么一定要是长度相同的列表才可以。

还有一种情况,如果字典的值不是列表,而是标量(就只有一个值意思),还可以用上面的方式将字典转化成DataFrame吗?让我们来试试。

字典值是标量而不是列表时

再创建一个学生Python成绩的字典,只不过这次只有一个学生,字典的值是标量(就只有一个值)。

# 字典的值是标量(就只有一个值),如下Student_dict = {'姓名':'张三',                '性别':'男',                '年龄':'20',                'Python成绩':'70'}

输入:

df = pd.DataFrame(data=Student_dict)df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

诶,又报错了,If using all scalar values, you must pass an index,如果使用所有标量值则必须传递索引。

image.jpg

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

所以说,如果字典的值是标量(就只有一个值),那么字典转DataFrame时,就必须加上一个索引index。

输入:

df = pd.DataFrame(data=Student_dict, index=[0]) df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

OK,到这里我们已经学会怎样将一个字典转化成DataFrame啦,再让我们看看怎样将一个列表转化成DataFrame。

列表创建DataFrame

先创建一个学生姓名的列表。

Student_name_list = ['张三', '李四', '王五', '赵六']

让我们试一下,直接用pd.DataFrame()会把列表转成怎样的DataFrame。

单个列表创建DataFrame,变成一列

输入:

# 单个列表创建DataFrame,变成一列df = pd.DataFrame(data=Student_name_list)df

输出:

image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

我们可以看到,直接用****pd.DataFrame()会把单个列表转成只有一列的DataFrame,那么如果我想把单个列表转成只有一行的DataFrame该怎么做呢?

单个列表创建DataFrame,变成一行

输入:

# 单个列表创建DataFrame,变成一行df = pd.DataFrame(data=[Student_name_list])df

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

看输入,我在Student_name_list列表外加了[],把原本一维列表,变成了二维列表,输出的DataFrame就变成了一行

上面介绍了单个列表转DataFrame的方式,多个列表怎么转DataFrame呢?让我们用两个列表来试一下。

先创建两个列表,学生姓名和学生Python成绩。(两个列表长度必须相同)

Student_name_list = ['张三', '李四', '王五', '赵六']Student_pythonscore_list = ['70', '80', '90', '50']

两列表创建DataFrame,生成两列

输入:

# 两列表创建DataFrame,生成两列pd.DataFrame(data={'姓名':Student_name_list, 'Python成绩':Student_pythonscore_list})

输出:
image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

我们可以将两个列表,先转成字典,那么就可以生成两列的DataFrame啦。

两列表创建DataFrame,生成两行

输入:

# 两列表创建DataFrame,生成两行df = pd.DataFrame(data=[Student_name_list, Student_pythonscore_list], index=['姓名', 'Python成绩'])df

输出:

image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

我们把两个一维列表,转成一个二维列表后,那么就可以生成两行的DataFrame啦。

本文关于DataFrame的创建就到此为止啦,更多有关DataFrame的操作可见主页零基础学Pyhton数据分析系列。

彦祖,点个赞呗。

image.jpg

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

后记

Python真的非常适合做数据分析,如果你对数据很感兴趣,那学好Python,成为一名数据分析师或者算法建模师一定是一个不错的选择。

原创不易,每一个知识点都是我在工作中常用的,初心是为了分享,所以希望大家能多多支持,关注点赞转发,有什么问题欢迎在后台联系我。

加油,骚年!

image.png

<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容