以无参方式输入scrapy
命令会输出可用的命令:
xieyuedembp:Web100 xieyue$ scrapy
Scrapy 1.8.0 - no active project
Usage:
scrapy <command> [options] [args]
Available commands:
bench Run quick benchmark test
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy <command> -h" to see more info about a command
全局命令:
startproject
:
【创建新项目】
$ scrapy startproject myproject
settings
:
【获取Scrapy的设置】
$ scrapy settings
$ scrapy settings --get DOWNLOAD_DELAY
runspider
:
【在未创建项目的情况下,运行一个编写在Python文件中的spider】
$ scrapy runspider myspider.py
shell
:
【以给定的URL(如果给出)或者空(没有给出URL)启动Scrapy shell】
$ scrapy shell http://www.baidu.com
fetch
:
【使用Scrapy下载器(downloader)下载给定的URL,并将获取到的内容送到标准输出】
$ scrapy fetch --nolog http://www.baidu.com
$ scrapy fetch --nolog --headers http://www.baidu.com
view
:
【在浏览器中打开给定的URL,并以Scrapy spider获取到的形式展现】
$ scrapy view http://www.baidu.com
version
:
【输出Scrapy版本】
$ scrapy shell http://www.baidu.com
项目(Project-only)命令:
crawl
:
【使用spider进行爬取】
$ scrapy crawl myspider
check
:
【运行contract检查】
$ scrapy check -l
$ scrapy check
list
:
【列出当前项目中可用的spider】
$ scrapy list
edit
:
【使用editor
中设定的编辑器编辑给定的spider】
$ scrapy edit spider1
parse
:
【获取给定的URL并使用相应的spider分析处理】
$ scrapy parse http://www.example.com/ -c parse_item
genspider
:
【在当前项目中创建spider】
$ scrapy genspider videos_spider douban.videos.com
bench
:
【运行benchmark测试】
$ scrapy bench