13.scrapy的暂停与重启

如果要scrapy爬取一段时间暂停,并稍后重启,需要在项目下创建一个用于存放scrapy中间状态文件的文件夹。

创建了该文件夹后,就可以在cmd.exe里面执行scrapy的爬虫操作了,代码:
scrapy crawl lagou -s JOBDIR=job_info/001
想要中断,按下Ctrl+C即可。想要终止,按两下Ctrl+C,如果想要从暂停状态继续执行,上面的代码不需改动;

这里的001文件夹不需要自己手动创建,该文件夹下主要存放scrapy爬虫暂停后中间状态文件,如果想要scrapy重新开始一次爬虫需要将代码中的001换成别的数字,如002,003等。(暂停与重启不能在pycharm中操作,因为暂停与重启接受的是Ctrl C命令,主要是用来中断进程,pycharm中无法实现)

001文件夹在终端操作后会生成一系列文件,可以对这些文件做些了解:

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容