fetch 可以直接获取一个网页
genspider 创建爬虫文件
runspider 运行一个爬虫
settings 爬虫配置相关
shell 进入交互页面
startproject 创建一个爬虫项目
创建一个爬虫项目
scrapy startproject cw(文件名)
cw 核心目录 scrapy.cfg 整个爬虫项目的配置
spiders 所有的爬虫文件都会放在spiders文件夹里面
init.py初始化文件 不用管
iterms.py 定义一些爬去目标 (比如爬当当网 上的书内容还是价格还是图片 爬什么就是目标 全部写在items.py里)
middlewares.py 中间键。 在爬去中间 中间都经历了什么。 (代理IP池 )
pipelines.py 爬去后数据你要做什么是写入什么东西 还是干什么
settings.py全局的
item(爬虫目标)->spiders(爬虫文件)->pipelines(数据处理)
sprapy指令
全局指令 项目指令
crawl 运行一个爬虫文件
edit 编辑一个爬虫文件
list 看一下当前爬虫项目下的爬虫文件
scrapy fetch http://www.baidu.com 获取百度
不创建爬虫项目单独 运行爬虫文件
scrapy shell http://www.baidu.com 进入python》〉》模式
exit() 退出
scrapy view http://news.163.com 将数据下载到本地并且在浏览器中打开
scrapy check +文件名 检查爬虫是否可行
scrapy crawl 文件 —nolog 运行爬虫并不打印日志
scrapy list 当前有可运行的爬虫