Requests
Responses
Downloaders Middlewares
Spider Middlewares
1、Engine向spider请求第一个URL
2、Engine获取URL拿给调度器(scheduler)调度
3、Engine向Scheduler请求下一个要爬取的URL
4、Scheduler返回URL给Engine,Engine通过Downloader Middlewares转发给Downloader这个Request
5、下载完毕,Downloader生成Response通过DM发给Engine
6、Engine接受Response通过Spider Middlewares发给Spider
7、Spider处理Response并返回爬取的Items、Request发送给Engine
8、Engine将Items发送给Item Pipeline,将Request发送给Scheduler
9、重复2,直到Spider中Request全部处理完毕
items:包含item
pipelines:对item处理,清洗、验证、持久化
setting:配置middlewares
spiders>
start_request:返回request给Scheduler
parse:解析页面,返回item给pipelines
代理IP
Cookie
登录方法:1.添加cookies 2.FormRequest:在parse中返回一个FormRequest,包含参数formdata字典,字典包含account/csrf_token/grant_type/redirect_url等值
其他处理:cookies middleware
JS
1.selenium
模拟浏览器 webbdriver_Firefox().get(url)
查看浏览器网络,XHR,找到js产生的请求,返回的是JSON。Scrapyd 部署 运行scrapy的应用,使用JSON API部署工程