作业内容回顾
选择某个自己感兴趣的数据领域,写出以下几个方面的内容:
- 要爬取的数据类别
- 对应的数据源网站
- 爬取数据的url
- 数据筛选规则(选做)
因为自己最近在考虑房屋置换的问题,所以想选一个有关历史房产交易数据的方向。
搜了一下,杭州市的房产信息相对公开度较高,在杭州市二手房交易监管服务平台上,可以查询到各大地产经纪挂牌的二手房具体信息,更新速度也比较快,应该可以作为一个可信度高的数据资源。
要爬取的数据类别
根据网站上显示的挂牌房源信息,爬取房源的城区、小区名称、面积、委托价格、挂牌机构、挂牌时间;
点击查看具体的房源介绍的时候会发现,里面多了房源的规划用途、所在楼层,这两个也需要爬取;
凡是包含“其他挂牌机构信息”的,属于重复的数据信息,应该进行筛选,以发布日期最新的为准;
爬取数据的url
- 房源基本信息url:http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp
- 点击具体房源后的跳转url,基本格式为
'jjhygl.hzfc.gov.cn/webty/WebFyAction_toGpxxInfo.jspx?gpfyid=' + gpfyid
数据筛选原则
查看了一下网址http://jjhygl.hzfc.gov.cn/webty/gpfy/gpfySelectlist.jsp的源代码,猜测list[i]应该是个变量,网站表格列出的其实就是变量的各个参数,如下图
那么下面就好推测了,比如list[i].fwtybh指的是房屋统一编号,list[i].cqmc指的是城区名称,lisg[i].xqmc就是小区名称等等。
点开某个具体的房源之后,页面上包括所属小区、城区、建筑面积、规划用途、委托价格、挂牌时间、所在楼层等信息。这些都在收集范围之内。
同时也需要提取“其他挂牌机构信息”,比较它的"挂牌时间”与前面的挂牌时间,选择最新的一个,并根据最新的信息重新提取房源价格。也可以考虑将多个挂牌时间的价格相互比较,从而对整体走势进行合理推测。