1.打开cmd命令行工具,输入scrapy startproject 项目名称
2.使用pycharm打开项目,查看项目目录
3.创建爬虫,打开CMD,cd命令进入到爬虫项目文件夹,输入scrapy genspider 爬虫文件名 爬虫基础域名
4.打开pycharm,发现spiders目录下多出一个py文件
5修改这个py文件的url为你想爬去页面的url
6.运行爬虫scrapy crawl py文件名(提示被反爬)
7开始模拟请求
7.1在你要爬取的当前页面按F12 > 点击Network > 点击左侧红色框含cookie的文件(一般第一个) > 复制Request Headers中所有参数(含cookie)
7.2修改settings.py下图三个参数(CTRL + F找),把复制的请求头已字典格式放入DEFAULT_REQUEST_HEADERS(可能要对参数进行删减,也可能就一个参数user-agent足以)
7.3运行命令scrapy crawl py文件名 我的文件名是userinfor
就看到了当前网页的数据,直到显示 INFO: Spider closed (finished) 结束
6.将爬虫拿到的数据保存为json格式数据
Scrapy crawl bole -o XXX.json