Scrapy安装与使用

1.scrapy的安装。

https://blog.csdn.net/c406495762/article/details/60156205

创建项目
scrapy startproject 项目名称
创建爬虫模块
scrapy genspider 名称域名
或
scrapy genspider 名称域名 --template crawl继承模板
运行爬虫
scrapy crawl 名称
测试爬虫
scrapy crawl country -s LOG_LEVEL=ERROR

命令中有一个-s LOG_LEVEL=ERROR 标记，这是一个 Scrapy 设置，等同于在settings.py 文件中定义 LOG_LEVEL='ERROR'。
默认情况下，Scrapy会在终端上输出所有日志信息，而这里是将日志级别提升至只显示错误信息。

使用shell命令抓取
scrapy shell 链接
中断与恢复爬虫

在抓取网站时，暂停爬虫并于稍后恢复而不是重新开始，有时会很有用。比如，软件更新后重启计算机，或是要爬取的网站出现错误需要稍后继续爬取时，都可能会中断爬虫。非常方便的是，Scrapy内置了对暂停与恢复爬取的支持，这样我们就不需要再修改示例爬虫了。要开启该功能，我们只需要定义用于保存爬虫当前状态目录的JOBDIR设置即可。需要注意的是，多个爬虫的状态需要保存在不同的目录当中。

scrapy crawl country -s LOG_LEVEL=INFO -s JOBDIR=craws/country

我们使用( Ctrl+C )发送终止信号，然后爬虫又完成了几个条目的处理之后才终止。想要 Scrapy 保存爬虫状态，就必
须等待它正常结束，而不能经受不住诱惑再次按下( Ctrl+C )强行立即终止！现在，爬虫状态保存在 crawls/country目录中，之后可以运行同样的命令恢复爬虫运行。

写一丢丢。。。。待完善的还有很多很多。。。。。。。。。。。。。。。。。