Excel数据分析之佛山二手房市场分析

       现如今,房地产的发展非常快,尤其是近几年,房价可谓是雨后春笋般节节攀升。很多人的第一首选会是购买一手房,但随着价格不断上升,越来越多人将目光转移到二手房市场。那么,二手房市场现在的状况怎么样?本人收集了安居客网站上佛山市的二手房数据,对于佛山二手房市场做了初步的分析。

由于中间会涉及分析的步骤及说明,不感兴趣的小伙伴直接跳到最后看结论就好啦。


本次分析将运用excel2016进行数据的处理及分析。首先来捋一捋用excel进行数据分析工作的步骤有哪些:

1.  提出问题(确定进行数据分析的目标,明确目的)

2.  理解数据(理解数据集中各个字段的意义)

3.  数据清洗(将数据集中冗余、缺失、异常等等数据进行清洗,得到真正需要的数据)

4.  数据分析(通过构建模型及数据可视化,对于呈现的结果进行分析)

5. 得出结论


前期的准备工作是必不可少的:

关于获取数据,笔者使用了第三方爬虫软件,爬取安居客佛山二手房信息。总共获取在售二手房数据3000条,主要获取房屋单价,面积,地址等信息。


一、提出问题

●现如今佛山市二手房行情如何?平均房价大概多少?

●哪个区域的二手房资源较为丰富?价格多少?

●最为主流的户型及面积分别是哪些?

●老房子多吗?新房又有多少?


二、理解数据


可以看到爬取的源数据还是比较杂乱的,需要清洗的地方有很多。这里首先对于各个字段进行查看和理解。

总共爬取了14个字段的数据。

标题:每条房屋信息都会配有标题

标题链接:点击标题进入链接

缩略图:缩略图链接

comm-address:房屋地址,这里包括了小区名以及详细的地址

house-details:房屋面积

house-details1:房屋所在楼层位置

house-details2:房屋建造年份

brokername:经纪人姓名

price-det:总房屋的价格

unit-price:每平方米的单价

tags-bottom:发布者编辑的房屋标签1

tags-bottom1:发布者编辑的房屋标签2

tags-bottom2:发布者编辑的房屋标签3

字段1:额外爬取的数据,表示房屋的户型,或者说厅房数各是多少


三、数据清洗

在理解以上字段含义后,需要对数据进行清洗。在数据清洗之前,若所得到的数据源为唯一数据源,建议进行备份,此处由于数据量不大,就复制了一个进行备份,若数据量较大,建议隐藏不需要的字段,以免数据丢失。


1.选择子集

将以上的字段进行了筛选及重命名,保留了房屋地址,面积,建造年份,单价,总价,厅室等信息。



2.一致化处理

通过观察数据,发现B列“地址”字段包含的数据挺多的有木有


“地址”字段中包含了这个房屋的小区名字,所属辖区(禅城区、顺德区南海区等)以及后面的镇,具体街道地址,用“-”隔开,所以有必要通过分列功能,进行梳理。

通过Excel2016中的“数据”选项卡中的分列功能,进行了两次分列。


成功将这一字段分列成4个更精确的字段,分别为:小区名称、辖区、镇(街道)、具体地址。修改字段名之后数据如下:



同时发现,“单价”、“总价”、“面积”、“建成年份”字段中的数据都带着单位,或者有后缀,不利于后期的数据统计,故在此通过替换功能,去除单位或者后缀。


并且巧用“分列”功能,将这些数据转化为数字格式。这里在最后一步选择“常规”就好了。



3.缺失值处理

由于总数据量为3000条,则若字段下的计数应该为3001条(加上字段行),若少于3001,则存在缺失值。

通过比较发现,小区名称、辖区、镇(街道)、具体地址四个字段存在缺失值。

好在缺失值数量不多,对于总体数据影响不大。在此将其全部填充为“未知”即可。

选择包含缺失值的字段所在列,快捷键Ctrl + G 导出定位条件,选择“空值”。

找出空值单元格后,输入“未知”并使用快捷键Ctrl + Enter进行填充处理,这样区域内空值都被填充了。


4.删除重复值

重复的数据将会影响到统计及分析结果,所以十分有必要对数据进行去重处理。

Excel2016中“数据”选项卡中的“删除重复值”能轻松删去重复值。考虑到发布者每次编辑的标题都可以不一样,但可能发布的是同意楼房,所以在去重的时候,剔除标题项,对剩下的字段进行去重处理。 



结果如下:共发现619个重复值,说明其中一部分房源很可能是重复发布的。


5、异常值处理

何为异常值?通常指样本中的个别值的数值明显偏离所属样本的其他值。这里先对各个数据进行排序,仅观察到一个异常值,将其去除。



数据清洗完毕,以下是清洗过后的数据集:


四、数据分析

首先我们来看一下二手房每平米单价及总价的描述统计结果。

在“数据”选项卡中选择“数据分析”功能,并在弹出的选项中,选择“描述统计”。若没有数据分析这项功能的小伙伴,可以到“文件”-“选项”中自行加载此功能。


分别选择“总价”及“单价”字段的区域得出结果。


结果如下:


由以上描述统计结果得知:

一套二手房平均价格在116万元左右,每平米价格为12500元左右,总体来说趋近于中等价位,相较于一线城市仍有一定差距。最便宜的一套房子仅需32万元,最贵的则需要375万元。而单价来说,最低单价少于4000元每平米,为3902元每平米,最高则将近30000元每平米。


那么,佛山的几个辖区中,二手房源的分布又是怎么样的呢?

通过数据透视表及数据可视化展示的图表可以看到,五个区中,南海区的二手房源最多,超过了一千套,与第二名的顺德区也有相当的差距,而相比而言禅城区的房源仅达到南海区的四分之一左右。这与各辖区所占的行政面积有一定关系,但同时也能说明禅城区二手房源相比之下也显得较为紧缺。


各个辖区中,哪个区的二手房均价比较高呢?于是有了下面这个图表

从图标中可以看出,南海区,禅城区及顺德区均价的价格相当,都在一万元每平米以上,结合上面分析的各区房源资源情况,此图也可说明禅城区的二手房资源是相对紧缺的。


主流户型及住房面积

二手房源中,最常见的户型是哪些?最主流的住房面积又是多大呢?

观察数据发现,户型较为整齐,种类不是非常多,但是住房面积太过于零散,不好统计,有必要对住房面积进行分段处理。

可以用数据透视表,也可以用VLOOKUP函数做一个辅助表格实现面积的分段。

这里用VLOOKUP完成对房屋住房面积的分段处理。求得住房面积最大值为260,最小值为37(max与min函数求得),梯度为20,制成以下辅助表:

在数据集添加一列“房屋面积范围”,运用VLOOKUP函数对此列进行求值,填充

公式:=VLOOKUP(F2,辅助表!$F$1:$G$14,2,1),成功进行了分段

所得数据可视化图表如下:

由以上饼图可知,90-110平以及70-90平这个区间的住房面积最受欢迎,与我们的日常住房相符合。


另外,通过以下图表可以知道,3室2厅的房源最为充足,2室1厅与2室2厅次之,同样,这三种户型也是日常较为主流的户型。


新房与老房问题

观察数据集,我们可以发现最早二手房建成时间是1994年,最近的则是今年2019年,同样,由于数据较为零散,我们将它分段统计(早期:2000年之前;中期:2000-2010年;近期:2010年之后)。

我们可以发现,早期的老房子几乎可以忽略不计,而最多的二手房则是2010年之后建成的,所以若挑选二手房,还是很大概率能挑到2010年之后建成的。


五、结论:

1.总体来说,佛山的二手房价位在12500元每平方米左右,相较于一线城市还是有些差距。当然,房价受多种因素印象,在此次收集到的数据集中,最便宜的一套房子仅需32万元,最贵的则需要375万元。

2.从区域上来看,顺德区,南海区以及禅城区房价相差无几,均价都在11000元每平米左右。南海区以及顺德区的房源较为充足,而禅城区的房间较为紧缺。

3.关于住房面积以及户型,70-110平米的房子占了绝大多数,3室2厅、2室2厅以及2室1厅也在二手房市场中占据主要地位,这也都符合人们日常居住习惯。

4.在房子的新旧问题上,上个世纪的二手房非常少,绝大多数都是近10年建好的新房。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容