爬虫看似简单,但是深入学习还是挺有意思的。我学习爬虫也有段时间了,现在开这个专题,算是一个回顾。在这里列一个大纲:
- 基本爬虫知识python库urllib、urllib2、requests
- urllib、urllib2、request三者关系
- 从python的urllib开始
- urllib2学习
- requests学习
- ps:如何用浏览器抓包分析
- ps:爬虫分析小工具
- 页面提取
- 正则表达式
- xpath
- beautifulsoup
- 动态页面抓取selenium+phantomjs
- scrapy框架
- 基本用法
- 中间件-代理、登录
- 抓取环
- 分布式爬虫
- scrapy_redis,
- scrapy-cluster(加入kafka利器)
- scrapy的改造
- 自定义下载器
- 手机app数据抓取
- 利用代理抓接口(青花瓷)
- appium(selenium和appium原本都是自动化测试工具,用来做爬虫也是很好的)