Pandas DataFrame(数据帧)

Pandas - DataFrame数据帧

数据帧(DataFrame)是二维数据结构,即数据以行和列的表格方式排列。
数据帧(DataFrame)的功能特点:

  • 潜在的列是不同的类型
  • 大小可变
  • 标记轴(行和列)
  • 可以对行和列执行算术运算

结构体

假设要创建一个包含学生数据的数据帧。
可视为数据库表或电子表格数据,参考以下图示:
[图片上传失败...(image-60946-1640592968104)]

image.png

pandas.DataFrame

pandas中的DataFrame可以使用以下构造函数创建

pandas.DataFrame( data, index, columns, dtype, copy)

参数说明:

  • data :数据采取各种形式,如: ndarray , series , map , lists , dict , constant 和另一个 DataFrame 。
  • index :对于行标签,要用于结果帧的索引是可选缺省值 np.arrange(n) ,如果没有传递索引值。
  • columns :对于列标签,可选的默认语法是 - np.arange(n) 。 这只有在没有索引传递的情况下才是这样。
  • dtype :每列的数据类型。
  • copy :如果默认值为 False ,则此命令(或任何它)用于复制数据。

创建

Pandas数据帧(DataFrame)可以使用各种输入创建,如:

  • 列表
  • 字典
  • 系列
  • Numpy ndarrays
  • 另一个数据帧(DataFrame)

在本章的后续章节中,将看到如何使用这些输入创建数据帧(DataFrame)。


创建一个空的DataFrame

创建基本数据帧是空数据帧

示例:

import pandas as pd
df = pd.DataFrame()
print (df)

输出如下:

Empty DataFrame
Columns: []
Index: []

从列表创建DataFrame

可以使用单个列表或列表列表创建数据帧(DataFrame)

示例1:传入单个列表,会自动生成索引和列

import pandas as pd
data = ['a','b','c','d','e']
df = pd.DataFrame(data)
print (df)

输出如下:

   0
0  a
1  b
2  c
3  d
4  e

示例2:传入多个列表和列名

import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'])
print (df)

输出如下:

     Name  Age
0    Alex   10
1     Bob   12
2  Clarke   13

示例3:传入时设置 dtype

import pandas as pd
data = [['Alex',10],['Bob',12],['Clarke',13]]
df = pd.DataFrame(data,columns=['Name','Age'],dtype=float)
print (df)

输出如下:

     Name   Age
0    Alex  10.0
1     Bob  12.0
2  Clarke  13.0

dtype 只是将 Age 设为了浮点型,因为数据中只有 Age 能转为浮点型


从ndarrays/Lists的字典来创建DataFrame

所有的 ndarrays 必须具有相同的长度。如果传递了索引( index ),则索引的长度应等于数组的长度。
如果没有传递索引,则默认情况下,索引将为 range(n) ,其中 n 为数组长度。

示例1:传入字典创建DataFrame

import pandas as pd
data = {'Name':['Tom','Jack','Steve','Ricky'],
        'Age':[28,34,29,42]}
df = pd.DataFrame(data)
print (df)

输出如下:

    Name  Age
0    Tom   28
1   Jack   34
2  Steve   29
3  Ricky   42

索引 0,1,2,3 这四个默认索引是使用 range(n) 生成的

示例2:创建时使用数组创建自定义的索引

import pandas as pd
data = {'Name':['Tom','Jack','Steve','Ricky'],
             'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print (df)

输出如下:

          Name  Age
rank1    Tom   28
rank2    Jack   34
rank3  Steve   29
rank4  Ricky   42

index 参数会为每一行分配一个索引

从列表创建数据帧DataFrame

字典列表可作为输入数据传递以用来创建数据帧(DataFrame),字典键默认为列名

示例1:通过 list 创建 DaraFrame

import pandas as pd
data = [{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df = pd.DataFrame(data)
print (df)

输出如下:

    a   b     c
0  1   2   NaN
1  5  10  20.0

NaN 因为缺失值,被使用 NaN 填充

示例2:使用自定义的列表创建索引
以下示例显示如何通过传递字典列表和行索引来创建数据帧(DataFrame)。

import pandas as pd
data = [{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df = pd.DataFrame(data,index=['first','second'])
print (df)

输出如下:

    a   b     c
0  1   2   NaN
1  5  10  20.0

示例3:以下示例显示如何使用字典,行索引和列索引列表创建数据帧(DataFrame)。

import pandas as pd
data = [{'a':1,'b':2},{'a':5,'b':10,'c':20}]
df1 = pd.DataFrame(data,index=['first','second'],columns=['a','b'])
df2 = pd.DataFrame(data,index=['first','second'],columns=['a','b1'])
print (df1)
print ('\n')
print (df2)

输出如下:

              a   b
first        1   2
second  5  10

             a  b1
first       1 NaN
second  5 NaN

df2 使用字典键以外的列索引创建 DataFrame ; 因此,附加了NaN到位置上。 而 df1 是使用列索引创建的,与字典键相同,所以也附加了 NaN


从系列的字典来创建DataFrame

字典的系列可以传递以形成一个DataFrame。 所得到的索引是通过的所有系列索引的并集

示例:

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
        'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print (df)

输出如下:

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4

对于第一个系列,观察到没有传递标签 d ,但在结果中,对于 d 标签,附加了 NaN


列选择,添加和删除

选择列

示例:从数据帧(DataFrame)中选择一列

import pandas as pd
d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}
df = pd.DataFrame(d)
print ('df为:')
print (df)
print ('选择第一列为:')
print (df['one'])

输出如下:

df为:
   one    two
a  1.0       1
b  2.0       2
c  3.0       3
d  NaN    4
选择第一列为:
a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64

添加列

示例:通过向现有数据框添加一个新列

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)


print ("新加一个列,这个列使用series创建:")
df['three']=pd.Series([10,20,30],index=['a','b','c'])
print (df)

print ("新的列使用其他列的和组成:")
df['four']=df['one']+df['three']

print (df)

输出如下:

新加一个列,这个列使用series创建:
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN

新的列使用其他列的和组成:
   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3   30.0  33.0
d  NaN    4    NaN   NaN

删除列

示例:列可以删除或弹出

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("原DataFrame是:")
print (df)

# using del function
print ("删除一列:")
del df['one']
print (df)

# using pop function
print ("弹出一列:")
print (df.pop('two'))
print ('弹出后:')
print (df)

输出如下:

原DataFrame是:
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3   30.0
d  NaN    4    NaN

删除一列:
   two  three
a    1   10.0
b    2   20.0
c    3   30.0
d    4    NaN

弹出一列:
a    1
b    2
c    3
d    4
Name: two, dtype: int64

弹出后:
   three
a   10.0
b   20.0
c   30.0
d    NaN

使用 pop 弹出,会返回弹出的列,同时会在原数组中删除这一列

行选择,添加和删除

选择行:使用标签loc()选择

示例1:通过将行标签传递给 loc() 函数来选择行

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print ('原数组:')
print(df)

print('选择b这一行')
print (df.loc['b'])

输出如下:

原数组:
   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
选择b这一行
one    2.0
two    2.0
Name: b, dtype: float64

结果是一系列标签作为 DataFrame 的列名称。 而且,系列的名称是检索的标签

示例2:选择多行

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print (df.loc[['b','c']])

输出如下:

   one  two
b  2.0    2
c  3.0    3

选择行,使用下标iloc()选择

示例1:可以通过将整数位置传递给 iloc() 函数来选择行

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print (df.iloc[2])

输出如下:

原数组:
   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4

选择第3行:
one    3.0
two    3.0
Name: c, dtype: float64

示例2:多行选择

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print (df.iloc[[2,3]])

输出如下:

   one  two
c  3.0    3
d  NaN    4

选择行:行切片

示例:可以使用 : 运算符选择多行

import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
    'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print (df[2:4])

输出如下:

   one  two
c  3.0    3
d  NaN    4

添加行

示例:使用append()函数将新行添加到DataFrame

import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print (df)

输出如下:

   a  b
0  1  2
1  3  4
0  5  6
1  7  8

删除行

示例:使用索引标签从DataFrame中删除或删除行。
如果标签重复,则会删除多行

import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

df = df.append(df2)
print ('原数组:')
print (df)

df = df.drop(0)
print ('删除后的数组')
print (df)

输出如下:

原数组:
   a  b
0  1  2
1  3  4
0  5  6
1  7  8

删除后的数组
   a  b
1  3  4
1  7  8

在上面的例子中,一共有两行被删除,因为这两行包含相同的标签 0

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,657评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,662评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,143评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,732评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,837评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,036评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,126评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,868评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,315评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,641评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,773评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,859评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,584评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,676评论 2 351

推荐阅读更多精彩内容