如果要scrapy爬取一段时间暂停,并稍后重启,需要在项目下创建一个用于存放scrapy中间状态文件的文件夹。
创建了该文件夹后,就可以在cmd.exe里面执行scrapy的爬虫操作了,代码:
scrapy crawl lagou -s JOBDIR=job_info/001
想要中断,按下Ctrl+C即可。想要终止,按两下Ctrl+C,如果想要从暂停状态继续执行,上面的代码不需改动;
这里的001文件夹不需要自己手动创建,该文件夹下主要存放scrapy爬虫暂停后中间状态文件,如果想要scrapy重新开始一次爬虫需要将代码中的001换成别的数字,如002,003等。(暂停与重启不能在pycharm中操作,因为暂停与重启接受的是Ctrl C命令,主要是用来中断进程,pycharm中无法实现)
001文件夹在终端操作后会生成一系列文件,可以对这些文件做些了解: