
现如今,房地产的发展非常快,尤其是近几年,房价可谓是雨后春笋般节节攀升。很多人的第一首选会是购买一手房,但随着价格不断上升,越来越多人将目光转移到二手房市场。那么,二手房市场现在的状况怎么样?本人收集了安居客网站上佛山市的二手房数据,对于佛山二手房市场做了初步的分析。
由于中间会涉及分析的步骤及说明,不感兴趣的小伙伴直接跳到最后看结论就好啦。
本次分析将运用excel2016进行数据的处理及分析。首先来捋一捋用excel进行数据分析工作的步骤有哪些:
1. 提出问题(确定进行数据分析的目标,明确目的)
2. 理解数据(理解数据集中各个字段的意义)
3. 数据清洗(将数据集中冗余、缺失、异常等等数据进行清洗,得到真正需要的数据)
4. 数据分析(通过构建模型及数据可视化,对于呈现的结果进行分析)
5. 得出结论
前期的准备工作是必不可少的:
关于获取数据,笔者使用了第三方爬虫软件,爬取安居客佛山二手房信息。总共获取在售二手房数据3000条,主要获取房屋单价,面积,地址等信息。
一、提出问题
●现如今佛山市二手房行情如何?平均房价大概多少?
●哪个区域的二手房资源较为丰富?价格多少?
●最为主流的户型及面积分别是哪些?
●老房子多吗?新房又有多少?
二、理解数据

可以看到爬取的源数据还是比较杂乱的,需要清洗的地方有很多。这里首先对于各个字段进行查看和理解。
总共爬取了14个字段的数据。
标题:每条房屋信息都会配有标题
标题链接:点击标题进入链接
缩略图:缩略图链接
comm-address:房屋地址,这里包括了小区名以及详细的地址
house-details:房屋面积
house-details1:房屋所在楼层位置
house-details2:房屋建造年份
brokername:经纪人姓名
price-det:总房屋的价格
unit-price:每平方米的单价
tags-bottom:发布者编辑的房屋标签1
tags-bottom1:发布者编辑的房屋标签2
tags-bottom2:发布者编辑的房屋标签3
字段1:额外爬取的数据,表示房屋的户型,或者说厅房数各是多少
三、数据清洗
在理解以上字段含义后,需要对数据进行清洗。在数据清洗之前,若所得到的数据源为唯一数据源,建议进行备份,此处由于数据量不大,就复制了一个进行备份,若数据量较大,建议隐藏不需要的字段,以免数据丢失。
1.选择子集
将以上的字段进行了筛选及重命名,保留了房屋地址,面积,建造年份,单价,总价,厅室等信息。

2.一致化处理
通过观察数据,发现B列“地址”字段包含的数据挺多的有木有

“地址”字段中包含了这个房屋的小区名字,所属辖区(禅城区、顺德区南海区等)以及后面的镇,具体街道地址,用“-”隔开,所以有必要通过分列功能,进行梳理。
通过Excel2016中的“数据”选项卡中的分列功能,进行了两次分列。


成功将这一字段分列成4个更精确的字段,分别为:小区名称、辖区、镇(街道)、具体地址。修改字段名之后数据如下:

同时发现,“单价”、“总价”、“面积”、“建成年份”字段中的数据都带着单位,或者有后缀,不利于后期的数据统计,故在此通过替换功能,去除单位或者后缀。

并且巧用“分列”功能,将这些数据转化为数字格式。这里在最后一步选择“常规”就好了。

3.缺失值处理
由于总数据量为3000条,则若字段下的计数应该为3001条(加上字段行),若少于3001,则存在缺失值。

通过比较发现,小区名称、辖区、镇(街道)、具体地址四个字段存在缺失值。

好在缺失值数量不多,对于总体数据影响不大。在此将其全部填充为“未知”即可。
选择包含缺失值的字段所在列,快捷键Ctrl + G 导出定位条件,选择“空值”。
找出空值单元格后,输入“未知”并使用快捷键Ctrl + Enter进行填充处理,这样区域内空值都被填充了。

4.删除重复值
重复的数据将会影响到统计及分析结果,所以十分有必要对数据进行去重处理。
Excel2016中“数据”选项卡中的“删除重复值”能轻松删去重复值。考虑到发布者每次编辑的标题都可以不一样,但可能发布的是同意楼房,所以在去重的时候,剔除标题项,对剩下的字段进行去重处理。

结果如下:共发现619个重复值,说明其中一部分房源很可能是重复发布的。

5、异常值处理
何为异常值?通常指样本中的个别值的数值明显偏离所属样本的其他值。这里先对各个数据进行排序,仅观察到一个异常值,将其去除。

数据清洗完毕,以下是清洗过后的数据集:

四、数据分析
首先我们来看一下二手房每平米单价及总价的描述统计结果。
在“数据”选项卡中选择“数据分析”功能,并在弹出的选项中,选择“描述统计”。若没有数据分析这项功能的小伙伴,可以到“文件”-“选项”中自行加载此功能。

分别选择“总价”及“单价”字段的区域得出结果。

结果如下:

由以上描述统计结果得知:
一套二手房平均价格在116万元左右,每平米价格为12500元左右,总体来说趋近于中等价位,相较于一线城市仍有一定差距。最便宜的一套房子仅需32万元,最贵的则需要375万元。而单价来说,最低单价少于4000元每平米,为3902元每平米,最高则将近30000元每平米。
那么,佛山的几个辖区中,二手房源的分布又是怎么样的呢?
通过数据透视表及数据可视化展示的图表可以看到,五个区中,南海区的二手房源最多,超过了一千套,与第二名的顺德区也有相当的差距,而相比而言禅城区的房源仅达到南海区的四分之一左右。这与各辖区所占的行政面积有一定关系,但同时也能说明禅城区二手房源相比之下也显得较为紧缺。

各个辖区中,哪个区的二手房均价比较高呢?于是有了下面这个图表

从图标中可以看出,南海区,禅城区及顺德区均价的价格相当,都在一万元每平米以上,结合上面分析的各区房源资源情况,此图也可说明禅城区的二手房资源是相对紧缺的。
主流户型及住房面积
二手房源中,最常见的户型是哪些?最主流的住房面积又是多大呢?
观察数据发现,户型较为整齐,种类不是非常多,但是住房面积太过于零散,不好统计,有必要对住房面积进行分段处理。

可以用数据透视表,也可以用VLOOKUP函数做一个辅助表格实现面积的分段。
这里用VLOOKUP完成对房屋住房面积的分段处理。求得住房面积最大值为260,最小值为37(max与min函数求得),梯度为20,制成以下辅助表:

在数据集添加一列“房屋面积范围”,运用VLOOKUP函数对此列进行求值,填充
公式:=VLOOKUP(F2,辅助表!$F$1:$G$14,2,1),成功进行了分段

所得数据可视化图表如下:

由以上饼图可知,90-110平以及70-90平这个区间的住房面积最受欢迎,与我们的日常住房相符合。
另外,通过以下图表可以知道,3室2厅的房源最为充足,2室1厅与2室2厅次之,同样,这三种户型也是日常较为主流的户型。

新房与老房问题
观察数据集,我们可以发现最早二手房建成时间是1994年,最近的则是今年2019年,同样,由于数据较为零散,我们将它分段统计(早期:2000年之前;中期:2000-2010年;近期:2010年之后)。

我们可以发现,早期的老房子几乎可以忽略不计,而最多的二手房则是2010年之后建成的,所以若挑选二手房,还是很大概率能挑到2010年之后建成的。
五、结论:
1.总体来说,佛山的二手房价位在12500元每平方米左右,相较于一线城市还是有些差距。当然,房价受多种因素印象,在此次收集到的数据集中,最便宜的一套房子仅需32万元,最贵的则需要375万元。
2.从区域上来看,顺德区,南海区以及禅城区房价相差无几,均价都在11000元每平米左右。南海区以及顺德区的房源较为充足,而禅城区的房间较为紧缺。
3.关于住房面积以及户型,70-110平米的房子占了绝大多数,3室2厅、2室2厅以及2室1厅也在二手房市场中占据主要地位,这也都符合人们日常居住习惯。
4.在房子的新旧问题上,上个世纪的二手房非常少,绝大多数都是近10年建好的新房。