在Scrapy中使用用户代理(python3)

参考文章

https://github.com/alecxe/scrapy-fake-useragent
https://github.com/hellysmile/fake-useragent

一、创建Scrapy工程
 scrapy startproject 工程名
二、进入工程目录,根据爬虫模板生成爬虫文件
 scrapy genspider  example example.com # 查看可用模板
三、定义爬取关注的数据(items.py文件)
四、编写爬虫文件
五、设置用户代理

步骤1:pip install fake-useragent
步骤2:在settings.py中配置下载中间件

#========================================
"""
配置下载中间件的连接信息
"""
DOWNLOADER_MIDDLEWARES = {
  
     'amazon.middlewares.MyUserAgentMiddleware': 543,
 }
#============================================

middlewares.py文件中编写一个middleware中间件,

from fake_useragent import UserAgent
from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware

class MyUserAgentMiddleware(UserAgentMiddleware):
     def __init__(self, user_agent=''):
         self.user_agent = user_agent

     def process_request(self, request, spider): 
         ua = UserAgent()



最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容