链家数据分析一--数据离散化处理

关于
学习日月光华老师的《Python数据分析从入门到机器学习》,通过写该文来巩固数据分析中使用的知识点。
主要是针对链家的数据进行各个不同方向的分析,本文是第一篇,针对数据中各个房源成交单价的分析。
准备
工具 :Anaconda、juyter notebook
类库:numpy、pandas、matplotlib
分析及代码实现
想要进行数据分析,首先肯定是要读入整个的数据,由于整个数据有有个.csv文件,如下图

image.png

data_list = []
for i in range(1, 8):
    try:
        data = pd.read_csv('C:\\Users\\nash.wan\\Desktop\\lianjia\\lianjia{}.csv'.format(i), encoding='gbk')
    except:
        data = pd.read_csv('C:\\Users\\nash.wan\\Desktop\\lianjia\\lianjia{}.csv'.format(i))
    finally:
        data_list.append(data)

由于有7个文件,通过一个循环来读入,然后放到定义的data_list中去,由于每个文件夹的编码方式不一致,我们通过try...except...finally来实现读取,代码如上面。
    涉及知识点:pandas.read_csv()读取csv文件的数据
把所有的数据放到list中后,下面就就行多表合并,取出list中的数据合并成一个DataFrame中去,并且赋值给data如下:

data = pd.concat(data_list)

查看合并后的表格式,如下:

image.png
    涉及知识点:
   concat多表合并
      pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,keys=None,     levels=None, names=None, verify_integrity=False)
      1.objs: series,dataframe或者是panel构成的序列lsit
      2.axis: 需要合并链接的轴,0是行,1是列
      3.join:连接的方式 inner,或者outer

然后取出cjdanjia一列的数据,并且对其进行数据清洗

dj = data.cjdanjia.dropna() #取出cjdanjia一列的数据,并且清洗掉数据中NaN值
dj = dj.map(lambda x: round(float(x.split('元')[0])/10000, 1)) #清洗掉单价后面的元/平,得到以万元为单位的float类型的Series 
dj = dj[dj > 0] #清洗掉数据中为0的数据

结果如下图:

image.png
    涉及知识点:
     a.DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
      1.how值为any或者all.all仅在切片元素全为NA时才抛弃该行(列),默认为any
      2.thresh=3 那么一行当中至少有三个非NA值时才将其保留
     b.map() 是一个Series的函数,DataFrame结构中没有map()。map()将一个自定义函数应用于Series结构中的每个元素(elements)。

经过数据清洗后,得到了单价的有效Series,下面对该Series离散处理

bins = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 16] #定义数据离散的区间
pd.cut(dj, bins).value_counts() #得出每个区间的数量

处理后的结果如下:

image.png

    涉及知识点:
     pandas快速定义分类
      pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise')
      x:必须是一维数组
      bins: 即不同的面元(就是不同的范围)接受三种类型的输入 整数,序列(比如数组)和IntervalIndex---输入整数,进行平均分成整数等份
      right:最后一个bins是否包含最右边的数据,默认为True(为左开右闭)
     value_counts()
      计算数据出现的频率

数据进行离散化,通过pandas的绘图函数plot()进行直方图绘图

zongjia.plot.barh(figsize = (10, 8)) #进行直方图绘图

    涉及知识点:
     Series.plot方法的函数:
      label:用于图例的标签
      ax:要在其上进行绘制的matplotlib subplot对象。如果没有设置,则使用当前matplotlib subplot
      style:将要传给matplotlib的风格字符串(for example: ‘ko–’)
      alpha:图表的填充不透明(0-1)
      kind:可以是’line’, ‘bar’, ‘barh’, ‘kde’
      logy:在Y轴上使用对数标尺
      use_index:将对象的索引用作刻度标签
      rot:旋转刻度标签(0-360)
      xticks:用作X轴刻度的值
      yticks:用作Y轴刻度的值
      xlim:X轴的界限
      ylim:Y轴的界限
      grid:显示轴网格线
      figsize:表示图像大小的元组
直方图展示如下:

image.png

总结
到目前为止,对单价的分析到此为止,通过直方图能够直观的展示北京地区各板块的成交房源单价区间。
未完,后面陆续写会针对其他的方向对链家数据进行分析。

    如果对您有点帮助的话,麻烦您给点个赞,谢谢。

链家数据分析二-数据分组处理:链家数据分析二-数据分组处理

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容