可视化部分
背景
可视化使用了Pyecharts。
Pyecharts来自百度开源的一个可视化JS工具:Echarts,是纯粹由国人开发的一个Echarts与Python结合的轮子。可视化类型非常多,而且动态渲染效果炫酷。
需要了解Pyecharts的基础知识到配置到实际应用,官方文档(含官方中字):
https://pyecharts.org/#/zh-cn/
分析过程:
首先获取链%家%的二手房数据集后,做简单的数据清洗,再查看价格的数据分布。数据分布并不符合正态分布,符合客观现实,继续分析。
-
先将行政区域和参考单价放入地理图二维Map中:
市内四区房价集中在2万上下,红色深浅代表的差异已经不明显了。金州和旅顺集中在1万上下。
反思: 因为地图中默认规格限制,高新区没有单独作为行政区域划分,而被并入甘井子区,而甘井子区区域又非常大,导致数据过于平均,不具有代表性,可以后续思考解决方法:a.换用别的地理区分划分更细致的库 b.用更小范围的区域划分(如小区,社区)来分析房价
- 用散点图描述各行政区房价和面积大小的分布情况
X轴对应平均房价,Y轴对应平均建筑面积,散点大小对应该行政区在售的二手房房源数量。甘井子区和沙河口的房源数量、均价差距不大。二手房数量相对其他区比较多,因为高新区从地理上归为差不多都有近18000套二手房,需求量大。中山区的房量不多,但价格和户型面积都是最大的,。金州的房子又便宜又大又多。除了西岗,其他符合客观事实。
3.行政区维度看完了,由于高新区被划入甘井子区,我们再向下细分,看看哪些块/区域的房源最多。
新建一个字典,将行政区域作为第一层key,将一个新字典作为第一层的value。新字典的key是区域,value是该区域的房源数量。
用矩形树图二级下钻的方式展示。颜色代表行政区,矩形面积代表数量多少。
房源量多的小区可以给购房者更多选择的空间,如果我要在高新园区的凌水附近购房,会优先选择到坦城或百合实地了解房屋装修等情况。
4.3D Map查看该小区平均房价
看完了小区房源量,最后再看看
由于链家网上对同一小区房源,所提供的经纬度一样。所以直接以小区名称,经纬度,和平均单价输入到map配置项中
精装房源关注人数最多,从侧面反映出买二手房者心理,即买即住。精装房源最多,毛胚最少房源,符合市场要求,因为是二手房数据
装饰情况的不同,Price_size(每平方)的单价也随着不同,符合市场的规律的,里面有装饰成本,所以单价也随着上升。
四者的总价的价格波动不大,落差在3000元/平,如时间条件允许建议购买毛胚房独立装修
(1)从各区的二手房数量来看,甘井子区的二手房数量相对其他区比较多,因为高新区从地理上归为差不多都有近18000套二手房,需求量大,
(2)从各区二手房均价来看,中山区最高,大约3万每平方米,中心区,寸土寸金,集合优秀的教育医疗资源,是老大连的心脏。其次是高新区,由于科技发展比较快,产业园比较多,吸引了大量外来人口。