Scrapy 是一个流行的 Python 爬虫框架,提供了多种命令来创建、管理和运行爬虫项目。以下是 Scrapy 的一些常用命令及其功能说明:
- 创建项目
scrapy startproject <项目名称>
创建一个新的 Scrapy 项目。
示例:scrapy startproject myproject
这会生成一个项目目录,包含基本的配置文件和文件夹结构。 - 生成爬虫
scrapy genspider <爬虫名称> <域名>
在当前项目中生成一个新的爬虫模板。
示例:scrapy genspider myspider example.com
生成的爬虫文件会放在 spiders 目录下。 - 运行爬虫
scrapy crawl <爬虫名称>
运行指定的爬虫。
示例:scrapy crawl myspider
需要在项目目录下运行此命令。
scrapy runspider <爬虫文件路径>
运行单个爬虫文件,无需完整的项目结构。
示例:scrapy runspider myspider.py
- 查看爬虫列表
scrapy list
列出当前项目中所有可用的爬虫名称。
示例:scrapy list
- 测试 URL 响应
scrapy fetch <URL>
下载并显示指定 URL 的响应内容。
示例:
scrapy fetch http://example.com
scrapy view <URL>
下载页面并在浏览器中打开,查看渲染后的内容。
示例:scrapy view http://example.com
- 调试爬虫
scrapy shell <URL>
打开一个交互式 shell,用于测试和调试爬取逻辑。
示例:scrapy shell http://example.com
在 shell 中可以直接操作响应对象(如 response.xpath())。 - 导出数据
scrapy crawl <爬虫名称> -o <文件名>.<格式>
运行爬虫并将结果导出到指定文件(如 JSON、CSV 等)。
示例:scrapy crawl myspider -o output.json
支持格式:json、csv、xml 等。 - 设置日志级别
scrapy crawl <爬虫名称> --loglevel <级别>
指定日志输出级别(如 DEBUG、INFO、WARNING、ERROR)。
示例:scrapy crawl myspider --loglevel DEBUG
- 检查项目
scrapy check
检查项目中的爬虫是否存在语法错误或问题。
示例:scrapy check
- 查看版本
scrapy version
显示当前安装的 Scrapy 版本。
示例:scrapy version
注意事项
大多数命令需要在 Scrapy 项目目录下运行(即包含 scrapy.cfg 的目录)。
如果需要更多自定义,可以通过 settings.py 修改全局配置,或在命令行中使用 -s 参数临时设置。例如:
scrapy crawl myspider -s USER_AGENT="Mozilla/5.0"
如果你有具体的 Scrapy 使用场景或问题,可以告诉我,我会进一步帮你解答!