通过Scrapy 抓取链家网所有地区二手房数据

使用Python抓取深圳链家房地产数据,保存至mysql数据库,并进行数据分析
逻辑:
1、通过任意一个链家网址进入,抓取链家二级域名网址,如sz.lianjia.com;bj.lianjia.com
2、通过二级链接组装二手房链接地址,如sz.lianjia.com/ershoufang/
3、获取二手房页面的筛选条件标签:地区、价格等,如ershoufang/p2/,再次进行组装,与当前请求的url
--目标格式为sz.lianjia.com/ershoufang/p2/,可查询深圳市200-300万的房子
4、查询当前筛选条件共多少页,获取页面的页码最大值,进行循环生成最终请求的url
--如sz.lianjia.com/ershoufang/p2/pg2/
5、进行请求最终url,并保存页面房产信息
6、保存至mysql数据库

Configuration

前端框架:Bootstrap
爬虫框架:Scrapy+BeautifulSoup
数据库:Mysql

Project log

Creation date:2017/12/22 10:41
Version:0.1
Describe:

  • Create Project
  • Use Scrapy Requests
  • Use Bs4 Responses Data

Version:0.2
Update date:2017/12/25 20:37

  • Optimization data,(Id,Region,Garden,Layout,Size,Direction,Renovation,Elevator,Price)
  • Save To Mysql Data

Version:0.3

  • Analysis data

项目进展

1、目前卡在了0.3版本

原因:

  • 在看《使用python进行数据分析》
  • 学习Numpy,暂不知为何需要使用这个
  • 学习pandas,学习使用DataFrame与Series
  • 预备学习:pyplot
  • 还没有学习:matplotlib
    实际原因:
  • scrapy单机抓取太慢,电脑6天不关机,过滤重复数据后,才抓了18万条有效数据
  • 预计学习分布式抓取
  • 增量式爬取
  • 定时更新

等待完善

项目地址:https://gitee.com/supermaxwu/ShenzhenRealestate

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容