在settings.py配置文件中开启下载中间件的功能,默认是关闭的
简单使用了一下如何使用scrapy爬取网站的方法,但其他都没有设置,这样很容易被反爬机制发现,所以在scrapy模板setting中设置
#下载延时时间会在5秒上下波动
DOWNLOAD_DELAY = 5
#这个是设置对域名发起请求时,只有一个,防止被发现,也可以设置多个
CONCURRENT_REQUESTS_PER_DOMAIN = 1
在settings配置文件中有一个ITEM_PIPELINES的配置参数,例子如下:
ITEM_PIPELINES = {
'myproject.pipelines.PricePipeline':300,
'myproject.pipelines.JsonWriterPipeline':800,
}
每个pipeline后面有一个数值,这个数组的范围是0-1000,这个数值确定了他们的运行顺序,数字越小越优先