https://baijiahao.baidu.com/s?id=1621695863688073415&wfr=spider&for=pc
https://www.cnblogs.com/3wtoucan/p/scrapy-installation.html
traffic-health-data-spider
中国主要城市交通健康数据爬虫
使用Scrapy抓取交通健康数据
制作Scrapy爬虫一共需要四步
1.新建项目 :新建一个新的爬虫项目
1.1创建目录amap_traffic_health
1.2创建项目scrapy startproject amap_traffic_health
1.3目录结构
|-amap_traffic_health
|-scrapy.cfg
|-amap_traffic_health
|-__init__.py
|-items.py
|-middlewares.py
|-pipelines.py
|-settings.py
|-spiders
|-__init__.py
1.4文件功能
scrapy.cfg:配置文件
spiders:存放Spider文件
items.py:相当于一个容器,和字典较像
middlewares.py:定义Downloader Middlewares(下载器中间件)和Spider Middlewares(蜘蛛中间件)的实现
pipelines.py:定义Item Pipeline的实现,实现数据的清洗,储存,验证。
settings.py:全局配置
2.明确目标 (编写items.py):明确你想要抓取的目标
3.制作爬虫 (spiders/xxspider.py):制作爬虫开始爬取网页
4.存储内容 (pipelines.py):设计管道存储爬取内容