scrapy 爬取链家北京租房信息

圣光的事，怎么能说脏呢。

介绍：

链家对爬虫初学者来说很友好，而且只爬取北京租房信息，数据量极小。

各区房源占比

各区平均月租金和房源数量

月租金的词云

啧啧啧，不容易啊。

顺便看看代码方面，比较简陋。

环境：

Python(3.5.2)

MySQL(14) —— Navicat

IDE：pycharm

scrapy框架

因为只需要租房下的信息，所以获取url就简单很多

然后是具体字段的获取，用的是 scrapy 的 ItemLoader 。这里因为要获取 item 的 list 的第一个，所以重新定义为ArticleItemLoader。

具体字段的过滤和对应 item 的插入放在items.py里。

然后是pipelines中数据写入MySQL。

还用了selenium+chrome获取页面数据，用selenium可以获取动态数据。但也会影响爬虫性能，selenium会把scrapy的异步机制变为同步。不过这个影响对于本文爬虫并没有影响，因为数据量实在不多。

个人学习记录，文中如有出错和理解错误的地方欢迎指出。

最后编辑于：2017.12.10 04:50:46

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。