最近开始学习scrapy框架,摘抄一些知识点
- 创建项目:
scrapy startproject testproject
- 进入项目:
cd testproject
- 生成spider:
scrapy genspider baidu www.baidu.com
- 了解各类模板:
scrapy genspider -l
- 指定模板:
scrapy genspider -t crawl zhihu www.zhihu.com
- crawl :运行spider的方法,可以指定运行的spider的名称 :
scrapy crawl zhihu.py
- check:用来检查代码是否有错误:
scrapy check zhihu.py
- scrapy list:返回项目中所有的名称
- scrapy edit :在命令行下编辑
- fetch:返回网页源代码,等同于response:
scrapy fetch http://www.baidu.com
- 去掉日志:得到headers:
scrapy fetch --nolog --headers http://www.baidu.com
- 禁止重定向:–no redicrect:
scrapy fetch --no-direct http://www.baidu.com
- view:将网页以文件的形式保存下来,然后去打开,可以在自动测试中应用:
scrapy view http://www.baidu.com
- shell:命令行模式的交互,并且返回一些可用的变量:
scrapy shell http://www.baidu.com
- parse: 传入一些参数,查看返回的结果,相当于格式化输出
- seetings:获取当前的配置信息:
scrapy settings -h
- runspider:运行spider:
scrapy runspider baidu.py
- version:输出scrapy的版本:
scrapy version -v
- bench:测试当前爬虫的速度