2020-08-09--Pandas-11--IO操作详解

数据分析过程中经常需要进行读写操作。
Pandas实现了很多 IO 操作的API,文件格式以及读写的方法,这里简单做了一个列举。

格式类型 数据描述 Reader Writer
text CSV read_csv to_csv
text JSON read_json to_json
text HTML read_html to_html
text clipboard read_clipboard to_clipboard
binary Excel read_excel to_excel
binary HDF5 read_hdf to_hdf
binary Feather read_feather to_feather
binary Msgpack read_msgpack to_msgpack
binary Stata read_stata to_stata
binary SAS read_sas
binary Python Pickle read_pickle to_pickle
SQL SQL read_sql to_sql
SQL Google Big Query read_gbq to_gbq

可以看到,Pandas 的 I/O API是像
pd.read_csv() 一样访问的一组顶级 reader 函数,
相应的 writer 函数是像 df.to_csv() 那样访问的对象方法。

# 导入相关库
import numpy as np
import pandas as pd
from io import StringIO

读取文件

read_csv

读取 csv 文件算是一种最常见的操作了。假如已经有人将一些用户的信息记录在了一个csv文件中,我们如何通过 Pandas 读取呢?

新建txt文件
在问文件中写:

name,age,birth,sex
Tom,18.0,2000-02-10,
Bob,30.0,1988-10-17,male

数据用逗号隔开即可。
2.将文件复制到与py文件同级目录(也可以不复制,为了方便)

3.在该py文件中读取文件

# 导入相关库
import numpy as np
import pandas as pd
from io import StringIO

file = pd.read_csv("user_info.csv")
print(file)
print(type(file))          # # <class 'pandas.core.frame.DataFrame'>
#   name   age       birth   sex
# 0  Tom  18.0  2000-02-10   NaN
# 1  Bob  30.0  1988-10-17  male

可以看到,读取出来生成了一个 DataFrame,索引是自动创建的一个数字,我们可以设置参数 index_col 来将某列设置为索引,可以传入索引号或者名称。

file = pd.read_csv('user_info.csv',index_col='name')
print(file)
#        age       birth   sex
# name                        
# Tom   18.0  2000-02-10   NaN
# Bob   30.0  1988-10-17  male

从 StringIO 对象中读取

1.index_col='列名'

将字符串转为字节,然后用read_csv进行读取

data="name,age,birth,sex\nTom,18.0,2000-02-10,\nBob,30.0,1988-10-17,male"
print(data)           # String
# name,age,birth,sex
# Tom,18.0,2000-02-10,
# Bob,30.0,1988-10-17,male

# 转为字节
sio = StringIO(data)
print(sio)
# <_io.StringIO object at 0x00000148FD3A4318>

# 读取
df = pd.read_csv(sio,index_col='name')
print(df)
#        age       birth   sex
# name                        
# Tom   18.0  2000-02-10   NaN
# Bob   30.0  1988-10-17  male
2.sep="符号", lineterminator="符号"

字符串还可以是这种形式:
sep 来自定义字段之间的分隔符,设置参数 lineterminator 来自定义每行的分隔符。

data = "name|age|birth|sex~Tom|18.0|2000-02-10|~Bob|30.0|1988-10-17|male"
df = pd.read_csv(StringIO(data), sep="|", lineterminator="~",index_col='name')
print(df)
#       age       birth   sex
# name                        
# Tom   18.0  2000-02-10   NaN
# Bob   30.0  1988-10-17  male
3.dytype={''列名:类型名}

在读取时,解析器会进行类型推断,任何非数字列都会以object的dtype的形式出现。当然我们也可以自己指定数据类型。

df = pd.read_csv(StringIO(data), sep="|", lineterminator="~", dtype={"age": int})
print(df)
#   name  age       birth   sex
# 0  Tom   18  2000-02-10   NaN
# 1  Bob   30  1988-10-17  male
4.names=['列名','列名',...]

Pandas 默认将第一行作为标题,但是有时候,csv文件并没有标题,我们可以设置参数 names来添加标题。

data="Tom,18.0,2000-02-10,\nBob,30.0,1988-10-17,male"
print(data)
df = pd.read_csv(StringIO(data), names=["name", "age", "birth", "sex"])
print(df)
#   name   age       birth   sex
# 0  Tom  18.0  2000-02-10   NaN
# 1  Bob  30.0  1988-10-17  male
5.usecols=['列名','列名',...]

有时候可能只需要读取部分列的数据,可以指定参数 user_cols

data="name,age,birth,sex\nTom,18.0,2000-02-10,\nBob,30.0,1988-10-17,male"
print(data)
df = pd.read_csv(StringIO(data), usecols=["name", "age"])
print(df)
#   name   age
# 0  Tom  18.0
# 1  Bob  30.0
6.缺失值处理

关于缺失值的处理,也是有技巧的。默认参数 keep_default_na=False,会将空值都填充为 NaN。

df = pd.read_csv(StringIO(data))
df = pd.read_csv(StringIO(data), keep_default_na=False)
print(df)
#   name   age       birth   sex
# 0  Tom  18.0  2000-02-10   NaN
# 1  Bob  30.0  1988-10-17  male
na_values=[]

有时候,空值的定义比较广泛,假定我们认为 18 也是空值,那么将它加入到参数 na_values中即可,那么18也会变为NaN。

df= pd.read_csv(StringIO(data), na_values=[18])
print(df)
#   name   age       birth   sex
# 0  Tom   NaN  2000-02-10   NaN
# 1  Bob  30.0  1988-10-17  male

了解了 pd.read_csv 如何使用之后,to_csv 就非常方便了,这里就不做介绍了。

to_json

通常在得到了 DataFrame 之后,有时候我们需要将它转为一个 json 字符串,可以使用 to_json 来完成。

转换时,可以通过指定参数 orient 来输出不同格式的格式,之后以下几个参数:

参数值 格式
split 字典像索引 - > [索引],列 - > [列],数据 - > [值]}
records 列表像{[列 - >值},…,{列 - >值}]
index 字典像{索引 - > {列 - >值}}
columns 字典像{列 - > {索引 - >值}}
values 只是值数组

DataFrame 默认情况下使用 columns 这种形式,Series 默认情况下使用 index 这种形式。
设置为 columns 后会将数据作为嵌套JSON对象进行序列化,并将列标签作为主索引。

print(df)
#        age       birth   sex
# name
# Tom   18.0  2000-02-10   NaN
# Bob   30.0  1988-10-17  male

json = df.to_json()
print(json)
# {"age":{"Tom":18.0,"Bob":30.0},"birth":{"Tom":"2000-02-10","Bob":"1988-10-17"},"sex":{"Tom":null,"Bob":"male"}}

json = df.to_json(orient='index')
print(json)
# {"Tom":{"age":18.0,"birth":"2000-02-10","sex":null},"Bob":{"age":30.0,"birth":"1988-10-17","sex":"male"}}

print(df.to_json(orient="records"))
# [{"age":18.0,"birth":"2000-02-10","sex":null},{"age":30.0,"birth":"1988-10-17","sex":"male"}]

print(df.to_json(orient="values"))
# [[18.0,"2000-02-10",null],[30.0,"1988-10-17","male"]]

print(df.to_json(orient="split"))
# {"columns":["age","birth","sex"],"index":["Tom","Bob"],"data":[[18.0,"2000-02-10",null],[30.0,"1988-10-17","male"]]}

对于 read_json,这些参数也是同样的道理。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,734评论 6 505
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,931评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,133评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,532评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,585评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,462评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,262评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,153评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,587评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,792评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,919评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,635评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,237评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,855评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,983评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,048评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,864评论 2 354