从零开始学Pandas(三)-DataFrame API介绍2

备注: 本博客所有代码可从如下github地址下载: https://github.com/Elliot518/data-science
注: 你需要自行安装Python3和Jupyter开发环境

1. 创建DataFrame

我们知道,DataFrame可以从文件例如csv或excel读取,也可以自己主动创建。
有几种创建DataFrame的方式。

  • 方式1(推荐)
    通过平行的列表(list)进行创建

看下面的例子

fname = ['Paul', 'John', 'Richard', 'George']
lname = ['McCartney', 'Lennon', 'Starkey', 'Harrison']
birth = [1942, 1940, 1940, 1943]
people = {'first': fname, 'last': lname, 'birth': birth}
beatles = pd.DataFrame(people)
beatles

结果:


image.png

从上面的例子可以看出,我们通过元素相同的平行的list来创建DataFrame,其中每个list均代表了DataFrame中的一列。
因此,平行list的方式是以列为维度来创建DataFrame的。它通过把每一列的数据创建出来。
(上面的例子中,'first','last','birth'就是列名)

DataFrame的索引(index)
默认index从0开始依次加1。
也可以自定义index,如下:

pd.DataFrame(people, index=["a", "b", "c", "d"])
image.png


  • 方式2
    通过字典(dictionary)创建。
    代码如下:
pd.DataFrame(
[{"first":"Paul","last":"McCartney", "birth":1942},
 {"first":"John","last":"Lennon", "birth":1940},
 {"first":"Richard","last":"Starkey", "birth":1940},
 {"first":"George","last":"Harrison", "birth":1943}])
image.png

可以看到通过字典(dictionary)的方式创建会重复地写列名,代码会有很多冗余。

 

2. 自定义函数

可以在Series或DataFrame上应用自定义函数。

  • Applying a function to a series
def MultiplyBy2(n):
    return n*2

adult_df.age.apply(MultiplyBy2)
image.png

 

3. 处理大数据集

Pandas是一个基于内存的工具库。对于处理超大数据集的时候,我们要防止内存溢出的情况发生。
我们可以把数据分行读取,如下:

large_dataset = pd.read_csv('large.csv', nrows=1000)

我们可以通过xxx_dataset.info()查看使用了多少内存。
例如,我们可以看到1000行使用了78KB的内存,那么我们可以预估,如果是10亿的数据量将要消耗78GB的内存。

也可以通过xxx_dataset.column_name.memory_usage()查看某一列使用了多少内存。
单位为byte。

除了指定行数以外,我们还可以指定数据块的大小,如下:

cols = ['carat', 'cut', 'color', 'clarity', 'depth', 'table', 'price']
diamonds_iter = pd.read_csv('../data/diamonds.csv', nrows=1000,
    dtype={'carat': np.float32, 'depth': np.float32,
           'table': np.float32, 'price': np.int16,
           'cut': 'category', 'color': 'category',
           'clarity': 'category'},
    usecols=cols,
    chunksize=200)

def process(df):
    return f'processed {df.size} items'

for chunk in diamonds_iter:
    print(process(chunk))

运行结果:
processed 1400 items
processed 1400 items
processed 1400 items
processed 1400 items
processed 1400 items

 

4. 写文件

  • 写入excel
import pandas as pd

data = [['Google', 10],['Runoob', 12],['Wiki', 13]]
df = pd.DataFrame(data, columns=['Site', 'Age'])
df

xl_writer = pd.ExcelWriter('../data/comp.xlsx')
df.to_excel(xl_writer, sheet_name='company')
xl_writer.save()

运行结果:
会新建一个comp.xlsx并把内容写入到该文件。

 

5. 读取zip文件

当csv或excel文件很大的时候,我们可以压缩一下文件,pandas有对应的api进行读取

  • 读取包含单个文件的zip文件
# read zip file with single file
autos = pd.read_csv('../data/vehicles.csv.zip')
autos
image.png

默认时间格式

autos.modifiedOn
image.png

转成日期格式

pd.to_datetime(autos.modifiedOn)
image.png

直接在加载时转换格式

# convert date column during loading
autos = pd.read_csv('../data/vehicles.csv.zip', parse_dates=['modifiedOn'])
autos.modifiedOn
  • 读取包含多个文件的zip文件
    当zip文件中包含多个文件的时候,我们需要用到python标准库的zipfile模块。

如下:

import zipfile

# read zip file containing multiple files
with zipfile.ZipFile('../data/kaggle-survey-2018.zip') as z:
    print('\n'.join(z.namelist()))
    kag = pd.read_csv(z.open('multipleChoiceResponses.csv'))
    kag_questions = kag.iloc[0]
    survey = kag.iloc[1:]
    print(kag_questions)
image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容