一、前期准备
方法一:
1. 创建虚拟环境
python3 -m venv 虚拟环境名称
- 激活虚拟环境
在 Windows 下:
./ 虚拟环境名称/Scripts/activate.bat
在 OS X 和 Linux 上:
source ./venv/bin/activate
- 安装依赖
下载 vc++ 14安装
pip install twisted[tls]
4.安装Scrapy
pip install scrapy
方法二:
可以直接下载安装Anaconda在可视化界面完成(我是懒癌患者,所以我推荐这种方式,哈哈)
二、开始爬虫
1.新建一个爬虫项目(生成项目目录)
scrapy startproject 项目名称
2.生成爬虫
scrapy genspider 爬虫名 域名
3.配置请求身份
在setting文件下→设置user-agent(具体需要到你要爬的网页上找,很简单~)
4.编写爬虫
在你之前爬虫名文件中编写--首先修改在class里的start_urls 看是否是你要爬的那页网址--再到parse方法中编写爬虫代码
5.我爬的简单的豆瓣上电影信息(如图)
6.运行爬虫
scrapy crawl 爬虫名
这样一个简单的爬虫流程就走完啦,是不是感觉没那么复杂呢!!!