1.scrapy的安装。
https://blog.csdn.net/c406495762/article/details/60156205
- 创建项目
scrapy startproject 项目名称
- 创建爬虫模块
scrapy genspider 名称 域名
或
scrapy genspider 名称 域名 --template crawl
继承模板 - 运行爬虫
scrapy crawl 名称
- 测试爬虫
scrapy crawl country -s LOG_LEVEL=ERROR
命令中有一个-s LOG_LEVEL=ERROR 标记,这是一 个 Scrapy 设置,等同于在settings.py 文件中定义 LOG_LEVEL='ERROR'。
默认情况下,Scrapy会在终端上输出所有日志信息,而这里是将日志级别提升至只显示错误信息 。
- 使用shell命令抓取
scrapy shell 链接
- 中断与恢复爬虫
在抓取网站时,暂停爬虫并于稍后恢复而不是重新开始,有时会很有用 。比如,软件更新后重启计算机,或是要爬取的网站出现错误需要稍后继续爬取时,都可能会中断爬虫。非常方便的是,Scrapy内置了对暂停与恢复爬取的支持,这样我们就不需要再修改示例爬虫了。要开启该功 能,我们只需要定义用于保存爬虫当前状态目录的JOBDIR设置即可。需要注意的是,多个爬虫的状态需要保存在不同的目录当中 。
scrapy crawl country -s LOG_LEVEL=INFO -s JOBDIR=craws/country
我们使用( Ctrl+C )发送终止信号,然后爬虫又完成了几个条目的处理之后才终止。想要 Scrapy 保存爬虫状态,就必
须等待它正常结束,而不能经受不住诱惑再次按下( Ctrl+C )强行立即终止! 现在,爬虫状态保存在 crawls/country目录中, 之后可以运行 同样的命令恢复爬虫运行 。
写一丢丢。。。。待完善的还有很多很多。。。。。。。。。。。。。。。。。