scrapy(三)setting

在settings.py配置文件中开启下载中间件的功能,默认是关闭的


开启中间键

简单使用了一下如何使用scrapy爬取网站的方法,但其他都没有设置,这样很容易被反爬机制发现,所以在scrapy模板setting中设置

#下载延时时间会在5秒上下波动

DOWNLOAD_DELAY = 5

#这个是设置对域名发起请求时,只有一个,防止被发现,也可以设置多个

CONCURRENT_REQUESTS_PER_DOMAIN = 1

在settings配置文件中有一个ITEM_PIPELINES的配置参数,例子如下:

ITEM_PIPELINES = {

'myproject.pipelines.PricePipeline':300,

'myproject.pipelines.JsonWriterPipeline':800,

}

每个pipeline后面有一个数值,这个数组的范围是0-1000,这个数值确定了他们的运行顺序,数字越小越优先

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容