在Scrapy中使用用户代理（python3）

参考文章

https://github.com/alecxe/scrapy-fake-useragent
https://github.com/hellysmile/fake-useragent

一、创建Scrapy工程

 scrapy startproject 工程名

二、进入工程目录，根据爬虫模板生成爬虫文件

 scrapy genspider  example example.com # 查看可用模板

三、定义爬取关注的数据（items.py文件）

四、编写爬虫文件

五、设置用户代理

步骤1:pip install fake-useragent
步骤2：在settings.py中配置下载中间件

#========================================
"""
配置下载中间件的连接信息
"""
DOWNLOADER_MIDDLEWARES = {
  
     'amazon.middlewares.MyUserAgentMiddleware': 543,
 }
#============================================

在middlewares.py文件中编写一个middleware中间件，

from fake_useragent import UserAgent
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class MyUserAgentMiddleware(UserAgentMiddleware):
     def __init__(self, user_agent=''):
         self.user_agent = user_agent

     def process_request(self, request, spider): 
         ua = UserAgent()

最后编辑于：2018.09.28 14:33:00

在Scrapy中使用用户代理（python3）

参考文章

一、创建Scrapy工程

二、进入工程目录，根据爬虫模板生成爬虫文件

三、定义爬取关注的数据（items.py文件）

四、编写爬虫文件

五、设置用户代理

推荐阅读更多精彩内容