pandas学习总结------数据索引和数据整理

import numpy as numpy
import pandas as pd
pd.options.display.max_rows = 20
numpy.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
numpy.set_printoptions(precision=4, suppress=True)

在数据分析中，总是需要进行各种各样的数据清洗和转换，如果能用好pandas本身内置的方法和技巧，使用起来事半功倍。

分层索引

创建分层索引的方式

创建一个分层索引最简单的方式就是在创建dataframe的时候在index参数里面传入一个层叠列表，这样就会产生多层索引。
比如下面

df=pd.DataFrame(numpy.random.randn(18).reshape(6,3),index=[['a', 'b', 'a', 'b', 'c', 'c'], [1,2,3]*2])
df

多层索引的方式

一般来说pandas可以用两种索引方式：位置索引和名字索引，对应的就是iloc和loc，不管是前者还是后者，都只接受两个参数[行对应的信息, 列对应的信息]。如果是多层索引的话，就是要传入一个元组列表去索引。

df.loc[[('a', 1), ('a', 3), ('b', 1)],0]

查看索引方式

df.index

我们可以对索引进行重新命名和指定按照哪一层级进行排序。

按照层级进行排序，加和

我们可以在一些统计方法比如sum和sort_index传入level的参数，可以是名字也可以是数字。

df.sum(level=0)

df.sum(level=1)

排序

df.sort_index(level='key1')

数据清洗与准备

缺失值

处理方法

扫描宝文档创建于2019年8月25日下午5_43_53

在判断某一行是否具有缺失值的时候注意可以结合any和sum方法进行联合判断出所有都是缺失值或者存在缺失值的行。类似的在dropna中可以传入how参数为any或者all来指定丢弃的方式。

df.head()

df[df.isnull().any(1)]

df[df.isnull().all(1)]

重命名索引或者列标签名

使用rename方法，里面传入一个字典即可，字典里面既可以是值，也可以是对应的函数方法。

data = pd.DataFrame(numpy.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data.head()

我们在这里如果是对索引['Ohio', 'Colorado', 'New York']都进行小写化，而对应的列名['one', 'two', 'three', 'four']进行首字母大写化。我们可以这么实现：

data.rename(index=lambda x:x.lower(), columns=str.upper)

如果不是要进行函数处理，而是对应去替换值，那就传入一个字典去替换。

data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'peekaboo'})

离散化和分箱

分箱有3个重要参数可以关注下。

参数名	对应的功能
labels	对应分箱的名
precision	精确度
right/left	是否包括右边界和左边界

ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, 4, labels=group_names, precision=2)

随机抽样

numpy.random.permutation可以在给定值下，在值范围内进行随机重排序。

df = pd.DataFrame(numpy.arange(5 * 4).reshape((5, 4)))
sampler = numpy.random.permutation(5)
sampler

dataframe的take方法筛选出对应索引的子集

df
df.take(sampler)

sample方法则可以给定数字，随机抽取对应n个元素

df.sample(3)

最后编辑于：2019.10.31 19:06:11

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,496评论 6赞 501
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,407评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,632评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,180评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,198评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,165评论 1赞 299
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,052评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,910评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,324评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,542评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,711评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,424评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,017评论 3赞 326
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,668评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,823评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,722评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,611评论 2赞 353