user-agent池
构建cookie池
ip代理来解决
禁用cookie,因为cookie会跟踪爬虫的访问过程。
setting.py中设置:COOKIES_ENABLED = False
自动限速:
访问页面间隔随机
ip代理池
Tor代理:洋葱路由器
分布式下载器Crawlera : 收费内容
google cache :网页快照
scrapy设置下载延时与自动限速:
setting.py :
DOWNLOAD_DELAY = 2
RANDOM_DOWNLOAD_DELAY = true
自动限速扩展:
该扩展会根据scrapy服务器和爬取网站的负载自动限制爬取速度。