使用Python抓取深圳链家房地产数据,保存至mysql数据库,并进行数据分析
逻辑:
1、通过任意一个链家网址进入,抓取链家二级域名网址,如sz.lianjia.com;bj.lianjia.com
2、通过二级链接组装二手房链接地址,如sz.lianjia.com/ershoufang/
3、获取二手房页面的筛选条件标签:地区、价格等,如ershoufang/p2/,再次进行组装,与当前请求的url
--目标格式为sz.lianjia.com/ershoufang/p2/,可查询深圳市200-300万的房子
4、查询当前筛选条件共多少页,获取页面的页码最大值,进行循环生成最终请求的url
--如sz.lianjia.com/ershoufang/p2/pg2/
5、进行请求最终url,并保存页面房产信息
6、保存至mysql数据库
Configuration
前端框架:Bootstrap
爬虫框架:Scrapy+BeautifulSoup
数据库:Mysql
Project log
Creation date:2017/12/22 10:41
Version:0.1
Describe:
- Create Project
- Use Scrapy Requests
- Use Bs4 Responses Data
Version:0.2
Update date:2017/12/25 20:37
- Optimization data,(Id,Region,Garden,Layout,Size,Direction,Renovation,Elevator,Price)
- Save To Mysql Data
Version:0.3
- Analysis data
项目进展
1、目前卡在了0.3版本
原因:
- 在看《使用python进行数据分析》
- 学习Numpy,暂不知为何需要使用这个
- 学习pandas,学习使用DataFrame与Series
- 预备学习:pyplot
- 还没有学习:matplotlib
实际原因: - scrapy单机抓取太慢,电脑6天不关机,过滤重复数据后,才抓了18万条有效数据
- 预计学习分布式抓取
- 增量式爬取
- 定时更新
等待完善