1.在终端进入安装好依赖的虚拟环境,执行命令
scrapy startproject 项目名称
2.png
提示进入 项目名称 并执行scrapy genspider example example.com
2.查看项目结构
1.png
3.cd 进入项目名称 执行scrapy genspider 主爬虫文件名 爬虫基础的域名(主爬虫文件名不可与项目名重复,爬虫基础域名格式为xxx.com)
cd chinadata
scrapy genspider chinainfo zh.coinjinja.com
4.查看项目结构,在spiders文件夹中多出chinainfo.py的文件,此文件写主爬虫,name为刚才创建的主爬虫文件名。要引入文件夹中的items.py中的item类!!
3.png
5.运行爬虫
scrapy crawl 主爬虫文件名
6.将数据保存到本地文件
保存数据: scrapy crawl 主爬虫文件名 -t 数据格式 -o 指定的文件 -a 设定请求爬虫数量 -L日志级别