零基础学Pyhton数据分析 >> Pandas >> DataFrame创建
前言
大家好,这里是零基础学Python数据分析系列。
这个系列所有的代码编写均是Python3版本。
喜欢的朋友们可以点个关注,有问题欢迎随时和我交流。
本文的内容是Pandas的核心数据结构DataFrame的创建。包括了怎样把字典和列表的数据结构转化成DataFrame的数据结构。
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
DataFrame简介
如果说,Numpy、Pandas、Matplotlib是Python数据分析三剑客,那么DataFrame绝对是Pandas最好的利剑。
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
简单理解:Pandas是编程界的Excel,DataFrame就是excel中一张表,对DataFrame操作,就是将excel表操作用Python代码来实现。
一个常规的DataFrame数据结构如下:
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
第左边一列是它的索引(可以理解为是excel表的序号。但索引不一定是顺序的,也可以是重复、断续的),最上面一行是它的列名(就是每一列代表的含义)。
是不是非常的简单直观。
熟悉了DataFrame的结构后,让我们开始创建一个DataFrame吧。
DataFrame创建,pd.DataFrame()
导入Pandas包,并命名为pd。
import pandas as pd
创建一个空的DataFrame
创建一个完全空的DataFrame
输入:
df = pd.DataFrame()df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
啥也没有,因为是完全空的DataFrame。
创建一个空的DataFrame,带列名
输入:
df = pd.DataFrame(columns=['姓名', '性别', '年龄', 'Python成绩'])df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
参数columns:列表形式,可以指定创建的DataFrame的列名。
创建一个空的DataFrame,带索引
输入:
df = pd.DataFrame(index=['姓名', '性别', '年龄', 'Python成绩'])df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
参数index:列表形式,可以指定创建的DataFrame的索引。
到这里,就实现了用pd.DataFrame()函数创建一个空的DataFrame。
那么怎样将Python常用的其他数据类型转变成DataFrame呢。比如字典、列表如何转化成DataFrame呢?
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
让我们继续,看看怎样将字典和列表转化成DataFrame。
字典创建DataFrame
先创建一个常规的学生Python成绩的字典,注意字典的值是相同长度的列表:
# 字典的值是相同长度的列表Student_dict = {'姓名':['张三', '李四', '王五', '赵六'], '性别':['男', '女', '男', '女'], '年龄':['20', '21', '19', '18'], 'Python成绩':['70', '80', '90', '50']}
字典创建DataFrame,字典的键变DataFrame的列名
输入:
df = pd.DataFrame(data=Student_dict)df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
直接把字典Student_dict放入pd.DataFrame()函数中,就可以转成DataFrame啦,只不过字典Student_dict的键会变成DataFrame的列名。
那么我希望字典的键可以变成DataFrame的索引应该怎么办呢?
字典创建DataFrame,字典的键变DataFrame的索引
非常简单,虽然pd.DataFrame()函数没有相关功能,但我们只需要把生成的DataFrame进行转置就可以啦。(DataFrame转置方式df.T)
输入:
df = pd.DataFrame(data=Student_dict).Tdf
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
上面介绍了字典的值是长度相同的列表时转DataFrame的方式,如果字典的值是长度不同的列表,会怎样呢?让我们来试一下。
字典的值是长度不同的列表时
再创建一个学生Python成绩的字典,只不过这次学生赵六的Python成绩缺失了。
# 字典的值是长度不相等的列表Student_dict_new = {'姓名':['张三', '李四', '王五', '赵六'], '性别':['男', '女', '男', '女'], '年龄':['20', '21', '19', '18'], 'Python成绩':['70', '80', '90']}
输入:
df = pd.DataFrame(data=Student_dict_new)df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
报错啦,All arrays must be of the same length,所有数组必须具有相同的长度,看来字典转DataFrame,字典的值如果是列表,那么一定要是长度相同的列表才可以。
还有一种情况,如果字典的值不是列表,而是标量(就只有一个值意思),还可以用上面的方式将字典转化成DataFrame吗?让我们来试试。
字典值是标量而不是列表时
再创建一个学生Python成绩的字典,只不过这次只有一个学生,字典的值是标量(就只有一个值)。
# 字典的值是标量(就只有一个值),如下Student_dict = {'姓名':'张三', '性别':'男', '年龄':'20', 'Python成绩':'70'}
输入:
df = pd.DataFrame(data=Student_dict)df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
诶,又报错了,If using all scalar values, you must pass an index,如果使用所有标量值则必须传递索引。
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
所以说,如果字典的值是标量(就只有一个值),那么字典转DataFrame时,就必须加上一个索引index。
输入:
df = pd.DataFrame(data=Student_dict, index=[0]) df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
OK,到这里我们已经学会怎样将一个字典转化成DataFrame啦,再让我们看看怎样将一个列表转化成DataFrame。
列表创建DataFrame
先创建一个学生姓名的列表。
Student_name_list = ['张三', '李四', '王五', '赵六']
让我们试一下,直接用pd.DataFrame()会把列表转成怎样的DataFrame。
单个列表创建DataFrame,变成一列
输入:
# 单个列表创建DataFrame,变成一列df = pd.DataFrame(data=Student_name_list)df
输出:
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
我们可以看到,直接用****pd.DataFrame()会把单个列表转成只有一列的DataFrame,那么如果我想把单个列表转成只有一行的DataFrame该怎么做呢?
单个列表创建DataFrame,变成一行
输入:
# 单个列表创建DataFrame,变成一行df = pd.DataFrame(data=[Student_name_list])df
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
看输入,我在Student_name_list列表外加了[],把原本一维列表,变成了二维列表,输出的DataFrame就变成了一行。
上面介绍了单个列表转DataFrame的方式,多个列表怎么转DataFrame呢?让我们用两个列表来试一下。
先创建两个列表,学生姓名和学生Python成绩。(两个列表长度必须相同)
Student_name_list = ['张三', '李四', '王五', '赵六']Student_pythonscore_list = ['70', '80', '90', '50']
两列表创建DataFrame,生成两列
输入:
# 两列表创建DataFrame,生成两列pd.DataFrame(data={'姓名':Student_name_list, 'Python成绩':Student_pythonscore_list})
输出:<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
我们可以将两个列表,先转成字典,那么就可以生成两列的DataFrame啦。
两列表创建DataFrame,生成两行
输入:
# 两列表创建DataFrame,生成两行df = pd.DataFrame(data=[Student_name_list, Student_pythonscore_list], index=['姓名', 'Python成绩'])df
输出:
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
我们把两个一维列表,转成一个二维列表后,那么就可以生成两行的DataFrame啦。
本文关于DataFrame的创建就到此为止啦,更多有关DataFrame的操作可见主页零基础学Pyhton数据分析系列。
彦祖,点个赞呗。
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>
后记
Python真的非常适合做数据分析,如果你对数据很感兴趣,那学好Python,成为一名数据分析师或者算法建模师一定是一个不错的选择。
原创不易,每一个知识点都是我在工作中常用的,初心是为了分享,所以希望大家能多多支持,关注点赞转发,有什么问题欢迎在后台联系我。
加油,骚年!
<figcaption style="text-align: center; line-height: 1.75; color: rgb(136, 136, 136); font-size: 0.8em;">图片</figcaption>