Scrapy安装与使用

1.scrapy的安装。

https://blog.csdn.net/c406495762/article/details/60156205

  1. 创建项目
    scrapy startproject 项目名称
  2. 创建爬虫模块
    scrapy genspider 名称 域名

    scrapy genspider 名称 域名 --template crawl继承模板
  3. 运行爬虫
    scrapy crawl 名称
  4. 测试爬虫
    scrapy crawl country -s LOG_LEVEL=ERROR

命令中有一个-s LOG_LEVEL=ERROR 标记,这是一 个 Scrapy 设置,等同于在settings.py 文件中定义 LOG_LEVEL='ERROR'。
默认情况下,Scrapy会在终端上输出所有日志信息,而这里是将日志级别提升至只显示错误信息 。

  1. 使用shell命令抓取
    scrapy shell 链接
  2. 中断与恢复爬虫

在抓取网站时,暂停爬虫并于稍后恢复而不是重新开始,有时会很有用 。比如,软件更新后重启计算机,或是要爬取的网站出现错误需要稍后继续爬取时,都可能会中断爬虫。非常方便的是,Scrapy内置了对暂停与恢复爬取的支持,这样我们就不需要再修改示例爬虫了。要开启该功 能,我们只需要定义用于保存爬虫当前状态目录的JOBDIR设置即可。需要注意的是,多个爬虫的状态需要保存在不同的目录当中 。

scrapy crawl country -s LOG_LEVEL=INFO -s JOBDIR=craws/country

我们使用( Ctrl+C )发送终止信号,然后爬虫又完成了几个条目的处理之后才终止。想要 Scrapy 保存爬虫状态,就必
须等待它正常结束,而不能经受不住诱惑再次按下( Ctrl+C )强行立即终止! 现在,爬虫状态保存在 crawls/country目录中, 之后可以运行 同样的命令恢复爬虫运行 。

写一丢丢。。。。待完善的还有很多很多。。。。。。。。。。。。。。。。。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。