数据的收集和整理,会占用数据分析大部分的时间。
——沃兹基硕德
之前的爬虫获得深圳小区信息4785条,与链家一致,骄傲!
数据量不多,但还是选择用mongodb练手。
工具:jupyter notebook,mongodb,highchart
准备工作
新手上路,数据是要被随便造的,安全起见,先复制一份原始数据。
进入mongo shell 复制数据
把mongo目录加入环境变量
再执行mongo命令就没问题了
show dbs 显示所有database
数据在lianjia中,
show tables 显示所有collection,
需要复制sz_xiaoqu 数据,先新建一个collection,显示ok就新建成功了,
将sz_xiaoqu数据复制到新建的collection,显示复制4785条数据,复制成功。
然后就可以开始可劲造了~
开始折腾
去除所有错误小区后,有效小区总数4775
所有小区房屋加总数2146156,大概就是深圳所有商品房总数量了。
各行政区小区分布
小区数量明显的关内三区领先。
各行政区房屋分布
没想到龙岗房子很多啊,小区也不多,那里的小区应该都很大~
小区房屋数平均值450
各行政区大于平均值的小区
小区均价min 14275,max 230450
均价分布直方图
各行政区小区均价
房价最高的还是大南山。
前1000均价大区-小区数量
排名靠前的基本都是南山福田的。
片区均价前10位
深圳湾房价一路狂飙。
最后
小区信息好像没什么价值啊……唯一的好处就是对mongodb取数和highchart熟悉了很多。
明天开始看具体房源信息。