在使用scrapy 2.6.2 过程中,由于使用了隧道代理模式,需要在请求头自定义添加Proxy-Authorization,但是scrapy为了安全却把它移除了,导致http请求时一直认证不通过。
一、在这个包中:from scrapy.core.downloader.handlersimport http11
第334行打个断点,调试一下,会发现在这个地方移除了Proxy-Authorization
二、在这个包中:from scrapy.downloadermiddlewaresimport httpproxy
第81行打个断点,调试一下,会发现在这个地方移除了Proxy-Authorization
最粗暴的解决方案就是直接改源码,增加一下这两个地方的判断,让你的请求不符合这个条件。
如在构建scrapy.Request时,增加meta={"dont_rm_proxy_auth": 1},然后这两个地方条件判断改为:
if isinstance(agent, self._TunnelingAgent)and 'dont_rm_proxy_auth' not in request.meta:
elif b'Proxy-Authorization' in request.headersand 'dont_rm_proxy_auth' not in request.meta:
这样Proxy-Authorization就不会被移除了。
当然这种方式过于粗暴了,正常情况不建议改源码。最好还是研究一下源码,然后让自身构建的scrpy.Request不符合其判断规则,让其不要移除Proxy-Authorization。
等有时间再好好读下scrapy的源码才行。