本文纯属练手文章,通过链家二手房数据可视化分析来提升自己在数据分析及可视化报告方面的能力。
第一部分:数据报告(ppt)
第二部分:python数据分析过程
1、数据初探:
将数据加载入jupyter notebook进行分析:
导入要用到的科学计算包,numpy,pandas,matplotlib,seaborn包
读取数据
读出来的数据如下所示:
查看数据的整体情况
发现除了elevator这特征值有缺失值之外其他数据都没有缺失值,由于有无电梯不是数值,不存在平均值和中位数,因此在次根据常识进行判断,一般楼层高于6的为有电梯房,低于包括6的为无电梯房。
缺失值填充:
二、数据可视化
1、Year特征分析
通过图分析,在2000年到2009年这十年期间,售出二手房数量最多的年份是在2003到2005年,2008年需求量最低,可猜测是与08年金融危机有关,由于国家出台
政策降低个人住房交易税收政策,在一定程度上缓解了房地产行业受金融危机的影响,不会出现严重的房地产泡沫现象。
2、Floor特征分析
从图可以看到,6层二手房数量最多,但是单独的楼层特征没有什么意义,因为每个小区住房的总楼层数不一样。另外楼层与文化也有重要联系,一般而言中间楼层
是比较受欢迎的,房价相对而言也会高一些,顶层和底层的楼层需求量相对而言较少,房价相对会低一些。所以楼层也是影响房价的一个复杂特征。
3、Layout特征分析
查看数据发现户型的布局有以下多种 :['2室1厅', '3室1厅', '3室2厅', '1室1厅', '2室2厅', '4室2厅', '1室0厅', '4室1厅', '5室2厅',
'2房间1卫', '1房间1卫', '3房间1卫', '4室3厅', '5室3厅', '1室2厅', '6室2厅', '3房间2卫',
'2室0厅', '3室3厅', '4房间2卫', '3室0厅', '6室3厅', '5室1厅', '叠拼别墅', '2房间2卫',
'4房间1卫', '1房间0卫', '5房间2卫', '7室3厅', '4房间3卫', '7室2厅', '5房间3卫', '2室3厅',
'6室4厅', '4室4厅', '5室4厅', '8室3厅', '6房间4卫', '3房间0卫', '8室2厅', '4室0厅',
'6房间3卫', '6室0厅', '1房间2卫', '2房间0卫', '3房间3卫', '6室1厅', '5室0厅', '1室3厅',
'9室1厅', '8室4厅', '6室5厅', '7房间2卫', '11房间3卫', '5房间0卫', '9室3厅', '7室1厅',
'8室5厅', '6房间5卫', '9室2厅']
4、Renovation 分析
首先查看一下数据renovation有哪几种类型值
由于renovation的不存在南北这样的特征,因此将这些异常数据排除在外进行分析
观察到,精装修的二手房数量最毒,其次是简装,对于价格来说毛坯的价格却是最高的,其次是精装,由此猜测
可能是毛坯买回来后自行装修的成本比经销商统一装修的成本高。
5、Region特征分析
从图可以看到,北京朝阳,海淀的需求量最多差不多都接近3000套,近几年丰台在改造建设,有赶超之势。密云最少。二手房的需求与地理位置有很大关系,地理位置越优越,需求量越大。 西城区的均价最高,大约为11万/平,因为西城是在二环以内,且是热门学区房的聚集地。其次是东城,大约9.9万/平,然后是海淀,其他均低于8万/平。
6、Size特征分析
通过密度分布图观察Size特征的分布情况,属于长尾类型的分布,说明有很多面积大且超出正常范围的二手房。
从Siize与price的散点图可发现size特征基本与price呈现线性关系,面积越大价格越高,从图中还可以发现一些异常值,首先是面积不到10平米,但是价格却超出了1000万,其次是有一个点面积超过1000平米,价格却很低。
由筛选的异常数据可以看到面积为1019平米的规格是1房0厅,由此猜测这个异常值可能不是民住房,而是用于商业的。比如一些大型商场
由筛选的异常值可以看出这些数据属于叠拼别墅,由于别墅的结构比较特殊将异常值移除进行分析
将异常值移除后发现没有明显的异常点,二手房的大小主要在100平米左右
三、总结
本文主要通过二手房数据的Year,Floor,Layout,Renovation,Region,Size,Price特征进行分析,最后得出两房一厅,三房一厅,楼层在6楼的房子较为受欢迎,房子的售价受地理位置,面积,装修程度,楼层,朝向等多因素的影响。
本文只是对数据进行简单的分析,如果进行更深层次的分析,还需掌握更多的售房特征信息,做更多的特征工程工作,比如数据清洗,特征提取。通过选取多维度的特征进行统计建模分析预测售房价格。