参考文章
https://github.com/alecxe/scrapy-fake-useragent
https://github.com/hellysmile/fake-useragent
一、创建Scrapy工程
scrapy startproject 工程名
二、进入工程目录,根据爬虫模板生成爬虫文件
scrapy genspider example example.com # 查看可用模板
三、定义爬取关注的数据(items.py文件)
四、编写爬虫文件
五、设置用户代理
步骤1:pip install fake-useragent
步骤2:在settings.py
中配置下载中间件
#========================================
"""
配置下载中间件的连接信息
"""
DOWNLOADER_MIDDLEWARES = {
'amazon.middlewares.MyUserAgentMiddleware': 543,
}
#============================================
在middlewares.py
文件中编写一个middleware
中间件,
from fake_useragent import UserAgent
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
class MyUserAgentMiddleware(UserAgentMiddleware):
def __init__(self, user_agent=''):
self.user_agent = user_agent
def process_request(self, request, spider):
ua = UserAgent()