Pandas 数据处理(一) —— 几个简单函数掌握!

对于 Pandas, 接触过 Python 数据处理的小伙伴们都应该挺熟悉的,做数据处理不可或缺的一个程序包,最大的特点高效,本篇文章将通过案例介绍一下 Pandas 的一些基础使用!

1,读入数据

大部分数据都可以用 read_csv() 函数读入,函数中有个 sep 参数,表示数据的分隔符,默认为 “,” (因为大部分 csv 文件数据之间就是以 ,隔开的)

users = pd.read_csv("https://raw.githubusercontent.com/justmarkham/DAT8/master/data/u.user",                   sep = '|')# Read data;users

原始数据:

Snipaste_2020-06-13_08-22-39.png

读取之后的数据:

Snipaste_2020-06-13_08-26-03.png

除了 read_csv 之外,还有一个常用的 read_table函数也可进行读取操作,用法与 read_csv 相似

2,改变索引值,只展示前几行数据

set_index() 函数用来改变索引值,注意需要加一个参数 replace = True 表示替代; 利用 head(n) 函数表示只展示前 n 行数据

users.set_index('user_id',inplace = True)users.head(25)
Snipaste_2020-06-13_08-26-13.png

tail(n) 只展示后几行数据;

3,查看数据的行和列的基本信息

1,shape 返回 数据的行数和列数,以 tuple 形式返回;

users.shape# (943, 4)

2,columns 返回数据列名;

users.columns# Index(['age', 'gender', 'occupation', 'zip_code'], dtype='object')

3,index 返回行名;

users.indexInt64Index([  1,   2,   3,   4,   5,   6,   7,   8,   9,  10,            ...            934, 935, 936, 937, 938, 939, 940, 941, 942, 943],           dtype='int64', name='user_id', length=943)

4,dtypes 返回各列的数据类型;

users.dtypes# age            int64gender        objectoccupation    objectzip_code      objectdtype: object

4,只选取某列或多列数据

Pandas 提供多种方式可供选择,注:users 表示 Pandas 可处理的DataFrame 格式;

1,users.列名;

users.occupation

2,users[['列名']];

users[['occupation']]

3,users.loc[:,['列名']];

users.loc[:,['occupation']]
Snipaste_2020-06-13_10-39-00.png

同时选取多列数据时

1,users[['列名1','列名2']];

users[['occupation','age']]

2,users.loc[:,['列名1','列名2']];

users.loc[:,['occupation','age']]
Snipaste_2020-06-13_20-49-34.png

5,对列中数据做去重统计

1,列名.nunique() 查看某一列数据有多少个不重复样本;

users.occupation.nunique()# 21

也可以通过这种方式实现

列名.value_counts().count()

users.occupation.value_counts().count()# 21

如果想在1 的基础之上,查看每一个不重复样本在数据列表冲出现了几次,可用下面语句

users.列名.value_counts()

users.occupation.value_counts().head()# student          196other            105educator          95administrator     79engineer          67Name: occupation, dtype: int64

6,对数据列表中的数字列做个简单统计

users.describe() 即可实现,默认统计的是 numeric columns(列中数据都是以数值进行展示的)

users.describe()
Snipaste_2020-06-13_20-49-55.png

当然也可以统计全部列,加一个参数 include = 'all';

users.describe(include = 'all')
Snipaste_2020-06-13_20-50-02.png

users.列名.describe() 也可以对指定列进行统计:

users.occupation.describe()#count         943unique         21top       studentfreq          196Name: occupation, dtype: object

7,对数据做组聚类

groupby 函数对某一列做聚类操作,返回的是 GroupBy 对象;与 5 中方法相似,区别是 groupby 是以聚类后的列为参照,查看其他列的数据统计情况

c =users.groupby("occupation")c# <pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000017673002788>

GroupBy.head(n) 查看前 n 行数据

c.head(5)

GroupBy.cout() 对每个样本对应其他列进行数据统计

c.count()

GroupBy.size() 统计列中每个样本出现次数

c.size()

还有其它许可操作的函数,

Snipaste_2020-06-13_10-33-50.png

详细的可去官网上查询:https://pandas.pydata.org/docs/reference/groupby.html

8,对数据按照某一列进行排序

用到 data.sort_values() 函数,默认从小到大,可以设置 ascending = False 设置为从大到小;

users.sort_values(["age"],ascending = False)

也可以参考多个列进行排序:

users.sort_values(["age","zip_code"],ascending = False)
double_columns_sort.png

9,创建新的列

加入新的列比较简单,创建一个 Series (行数需与原列表数据行数保持一致),赋值到源数据即可

data['列名'] = 新创建的 series;下面我利用对 age 中数据进行均一化,把数据存放在新的列 age_normalize 中

Snipaste_2020-06-13_10-57-10.png

10,删除指定列

用 drop() 函数可删除源数据中的指定列

users.drop(['age'],axis = 1)

这里的 axis 代表指定要删除的是行还是列,默认为0,0代表的是行,1代表的是列;也可以直接用下面命令:

users.drop(columns =['age'])
drop_columns.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354