Python数据分析——数据预处理的方法

前言

1. 关于数据集

数据来源:日月光华老师的《Python数据分析从入门到机器学习》的 lianjia 数据。

数据概况:

  • cjtaoshu:成交套数
  • mendian:门店
  • cjzongjia:成交总价
  • zhiwei:职位
  • haoping:好评
  • cjdanjia:成交单价
  • cjxiaoqu:成交小区
  • xingming:姓名
  • cjzhouqi:成交周期
  • biaoqian:经纪人标签
  • cjlouceng:成交楼层
  • cjshijian:成交时间
  • congyenianxian:经纪人从业年限
  • bankuai:板块

2. 分析环境

  • Python3
  • jupyter notebook

一、数据读取、数据观察与合并数据

1. 数据读取

可以看到一共有7个csv文件,而且由于数据文件的编码方式不统一,在循环读取的时候需要做一下处理。

代码:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

data_list = []
for i in range(1, 8):
    try:
        data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i), encoding='gbk')
    except:
        data = pd.read_csv('./lianjia/lianjia{}.csv'.format(i))
    data_list.append(data)

2. 合并数据

concat()方法

data_list里的数据的数据格式都是完全统一的,这里用pandas的concat()方法。

data = pd.concat(data_list)
data.head()

3. 确定分析目标,提取需要数据

分析目标:做一个房产估价模型,给定一些房子信息,模型估计出单价。这里需要:cjdanjia(成交单价),cjxiaoqu(成交小区),cjlouceng(成交楼层),bankuai(板块)。

data = data[['cjdanjia', 'cjxiaoqu', 'cjlouceng', 'bankuai']]

二、处理缺失值与重复值

1. 缺失值

isnull()方法
# 删除全部为null的值
data.dropna(how='all', inplace=True)

这里(bankuai)板块部分数据相对来说不是那么的重要,所以有缺失值问题不大,这里不做处理。

2. 重复值

duplicated()方法

由于在处理缺失值时,对板块数据没有进一步处理,在判断是否是重复值时就会存在这样一种情况:非null数据相同,但是板块数据一个为null,一个不为null,这其实是重复数据,所以在判断是否为重复值时,使用非null的数据判断:

(data.duplicated(subset=['cjdanjia','cjxiaoqu','cjlouceng'])).sum()

>>> 20012
drop_duplicates()方法
sort_values()方法

使用drop_duplicates()方法删除重复值时,会默认把后面的重复值删除掉,为了尽量保留有板块值不为null的数据,这里先使用sort_values()方法排序,该方法默认把包含null的值放后面。

data.sort_values(by='bankuai', inplace=True)

data.drop_duplicates(subset=['cjdanjia','cjxiaoqu','cjlouceng'], inplace=True)

三、数据类型转换、异常值处理以及数据离散化分析

1. 数据类型转换

将cjdanjia转换为数值类型,以万元为单位,保留两位小数。

# 判断数据是否都包含'元/平' ~:取反
(~data.cjdanjia.str.contains('元/平')).sum()
>>> 0

data = data.assign(cjdanjia = np.round(data.cjdanjia.str.replace('元/平', '').astype(np.float32).map(lambda x:x/10000), 2))

2. 异常值处理

按照北京房价行情分析,成交单价的最小值应该在5000元以上(主观推测),所以去掉成交单价小于5000的数据。

data = data[data.cjdanjia > 0.5]

3. 数据离散化分析

区间画图显示分析

bins = [0, 1, 2, 3, 4, 5, 7, 10, 15]
pd.cut(data.cjdanjia, bins).value_counts().plot.bar(rot=20)

由于这里分析的数据是2011~2016年之间的数据,所以可以看到成交单价大部分分布在2到4万之间。


四、字符串处理

这里以成交楼层(cjlouceng)数据为例学习字符串处理方法。由前面的图可以看到成交楼层(cjlouceng)数据都是以两个'/'分成了三部分,这里先判断一下。

(data.cjlouceng.str.split('/').map(len) != 3).sum()
>>> 0

然后从成交楼层数据中提取朝向和楼层信息,并以此添加两列数据。

data = data.assign(chaoxiang = data.cjlouceng.map(lambda x:x.split('/')[0]))
data = data.assign(louceng = data.cjlouceng.map(lambda x:x.split('/')[1]))

查看楼层数据都有哪些:

unipue()方法:返回唯一值
data.louceng.unique()

>>> array(['低楼层', '中楼层', '高楼层', '地下室', '未知', ''], dtype=object)

经分析这里louceng数据包含 '未知' 和 '' 的数据数量很少,而且信息不全,这里将其删除掉。

data = data[(data.louceng != '')&(data.louceng != '未知')] 
get_dummies()方法

楼层数据不是数值,无法丢进模型进行分析,这里用pandas的get_dummies()方法数值化信息。

data.join(pd.get_dummies(data.louceng))

其他字符串类型数据处理方式大致相同。


五、分组运算与布尔过滤

在前面第一节:确定分析目标,提取需要数据中再加上 'xingming' 和 'cjzongjia','congyenianxian',其他不变。

1. 分组运算

分析:所有的板块中,经纪人成交总价值超过1亿的经纪人。

groupby()方法
data_group = data.groupby(['bankuai','xingming'])['cjzongjia'].sum()

2. 布尔过滤

data_group[data_group > 10000]

3. 透视表分析

进一步思考:这些成交总价超过一亿的经纪人有什么特点?跟从业年限(congyenianxian)的关系。

pivot_table()方法
data_1w = data.pivot_table('cjzongjia', index='xingming', columns='congyenianxian', aggfunc=sum)

#绘制饼图
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
(data_1w > 10000).sum().plot.pie(figsize=(6,6))

此图很明显的说明了一个问题:对经纪人来说,从业年限越高,他的成交总价超过一亿的人数就越多。


总结

通过对lianjia数据的分析处理,进一步巩固了Python数据分析数据预处理的一些方法。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,718评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,683评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,207评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,755评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,862评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,050评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,136评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,882评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,330评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,651评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,789评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,477评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,135评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,864评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,099评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,598评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,697评论 2 351

推荐阅读更多精彩内容