pandas学习总结------数据索引和数据整理

import numpy as numpy
import pandas as pd
pd.options.display.max_rows = 20
numpy.random.seed(12345)
import matplotlib.pyplot as plt
plt.rc('figure', figsize=(10, 6))
numpy.set_printoptions(precision=4, suppress=True)

在数据分析中,总是需要进行各种各样的数据清洗和转换,如果能用好pandas本身内置的方法和技巧,使用起来事半功倍。

分层索引

创建分层索引的方式

创建一个分层索引最简单的方式就是在创建dataframe的时候在index参数里面传入一个层叠列表,这样就会产生多层索引。
比如下面

df=pd.DataFrame(numpy.random.randn(18).reshape(6,3),index=[['a', 'b', 'a', 'b', 'c', 'c'], [1,2,3]*2])
df

多层索引的方式

一般来说pandas可以用两种索引方式:位置索引名字索引,对应的就是ilocloc,不管是前者还是后者,都只接受两个参数[行对应的信息, 列对应的信息]。如果是多层索引的话,就是要传入一个元组列表去索引。

df.loc[[('a', 1), ('a', 3), ('b', 1)],0]

查看索引方式

df.index

我们可以对索引进行重新命名和指定按照哪一层级进行排序。

按照层级进行排序,加和

我们可以在一些统计方法比如sumsort_index传入level的参数,可以是名字也可以是数字。

df.sum(level=0)
df.sum(level=1)

排序

df.sort_index(level='key1')

数据清洗与准备

缺失值

处理方法


扫描宝文档创建于2019年8月25日 下午5_43_53

在判断某一行是否具有缺失值的时候注意可以结合anysum方法进行联合判断出所有都是缺失值或者存在缺失值的行。类似的在dropna中可以传入how参数为any或者all来指定丢弃的方式。

df.head()
df[df.isnull().any(1)]
df[df.isnull().all(1)]

重命名索引或者列标签名

使用rename方法,里面传入一个字典即可,字典里面既可以是值,也可以是对应的函数方法。

data = pd.DataFrame(numpy.arange(12).reshape((3, 4)),
                    index=['Ohio', 'Colorado', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data.head()

我们在这里如果是对索引['Ohio', 'Colorado', 'New York']都进行小写化,而对应的列名['one', 'two', 'three', 'four']进行首字母大写化。我们可以这么实现:

data.rename(index=lambda x:x.lower(), columns=str.upper)

如果不是要进行函数处理,而是对应去替换值,那就传入一个字典去替换。

data.rename(index={'OHIO': 'INDIANA'},
            columns={'three': 'peekaboo'})

离散化和分箱

分箱有3个重要参数可以关注下。

参数名 对应的功能
labels 对应分箱的名
precision 精确度
right/left 是否包括右边界和左边界
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32]
group_names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior']
pd.cut(ages, 4, labels=group_names, precision=2)

随机抽样

numpy.random.permutation可以在给定值下,在值范围内进行随机重排序。

df = pd.DataFrame(numpy.arange(5 * 4).reshape((5, 4)))
sampler = numpy.random.permutation(5)
sampler


dataframe的take方法筛选出对应索引的子集

df
df.take(sampler)

sample方法则可以给定数字,随机抽取对应n个元素

df.sample(3)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,496评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,407评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,632评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,180评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,198评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,165评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,052评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,910评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,324评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,542评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,711评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,424评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,017评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,668评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,823评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,722评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,611评论 2 353

推荐阅读更多精彩内容