项目名称
BOT_NAME = ''
爬虫存储的文件路径
SPIDER_MODULES = ['']
创建爬虫文件的模板,创建好的爬虫文件会存放在这个目录下
NEWSPIDER_MODULE = ''
设置ua,模拟浏览器请求
USER_AGENT = ''
设置是否需要遵守robot协议:默认为True
ROBOTSTXT_OBEY = True/False
设置请求的最大并发数据(下载器),默认16个
CONCURRENT_REQUESTS = int
设置请求的下载延时,默认为0
DOWNLOAD_DELAY = int
设置网站的最大并发请求数量,默认是8
CONCURRENT_REQUESTS_PER_DOMAIN = int
设置某个IP的最大并发请求数量,默认是0
CONCURRENT_REQUESTS_PER_IP = int
如果非0,
CONCURRENT_REQUESTS_PER_DOMAIN不生效,这时候请求的并发数量将针对于IP,而不是网站了
设置的DOWNLOAD_DELAY就是针对于ip而不是网站了
是否携带cookie,默认为True
COOKIES_ENABLED = True/False
跟踪cookies,默认情况下是False
COOKIES_DEBUG = True
是一个终端的扩展插件,
TELNETCONSOLE_ENABLED = True/False
设置默认请求头
DEFAULT_REQUEST_HEADERS = {}
设置和激活爬虫中间件
SPIDER_MIDDLEWARES = {}
设置和激活下载中间件
DOWNLOADER_MIDDLEWARES = {}
设置扩展
EXTENSIONS = {}
设置和激活管道文件,后面的数字表示优先级
ITEM_PIPELINES = {}
默认情况下自动限速的扩展是关闭的:AUTOTHROTTLE_ENABLED = False
AUTOTHROTTLE_ENABLED = True/False
初始的下载延时默认是4秒
AUTOTHROTTLE_START_DELAY = int
最大下载延时
AUTOTHROTTLE_MAX_DELAY = int
针对于网站的最大的并行请求数量
AUTOTHROTTLE_TARGET_CONCURRENCY = int
调试模式,默认为True
AUTOTHROTTLE_DEBUG = True/False
设置数据的缓存,默认情况下是未开启的
AUTOTHROTTLE_DEBUG = True/Flase
设置缓存的超时时间,默认为0为永远有效
HTTPCACHE_EXPIRATION_SECS = 0
设置缓存的存储文件路径
HTTPCACHE_DIR = 'httpcache'
忽略某些状态码的请求结果(Response)
HTTPCACHE_IGNORE_HTTP_CODES = []
开启缓存的扩展插件
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'
设置日志信息
LOG_FILE = 'xcf.log'
LOG_LEVEL = 'INFO'