使用Scrapy框架爬虫的几条重要的命令
创建项目:scrapy startproject xxx
进入项目:cd xxx
基本爬虫:scrapy genspider xxx(爬虫名) xxx.com (爬取域)
还有一条是规则爬虫的命令,只是这条有变化,前俩条不变
规则爬虫:scrapy genspider -t crawl xxx(爬虫名) xxx.com (爬取域)
运行命令:scrapy crawl xxx -
开发Scrapy爬虫的步骤~
创建项目:scrapy startproject xxx(项目名字,不区分大小写)
明确目标 (编写items.py):明确你想要抓取的目标
制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
存储内容 (pipelines.py):设计管道存储爬取内容
启动程序的py文件(start.py):等同于此命令(scrapy crawl xxx -o xxx.json)