解决 Python 爬虫代理 407 错误：基于 urllib3 更新与爬虫代理的实战指南

爬虫代理

在使用 Python 的 Requests 库进行网络爬虫开发时，代理 IP 的配置是的核心环节。然而，很多开发者在部署爬虫时，会遇到请求突然失败的问题，并在控制台看到诸如 407 Proxy Authentication Required 或者 Proxy Authentication Failed 的错误提示。

当你检查了代理服务商后台，确认账号、密码、IP白名单均正常，且代码在某个时间点之前还能正常工作时，这通常意味着你遭遇了依赖库更新带来的兼容性问题。

错误根因：urllib3 1.26+ 的严格校验

导致爬虫大量报 407 错误的核心原因，在于底层的 urllib3 库在 1.26.0 版本（2021年12月发布）中引入了对代理认证 header 格式的严格校验。

* 在旧版本（1.25.x 及之前）中，urllib3 不会对 Proxy-Authorization header 的值做额外的严格校验。

* 在 1.26 及以上版本中，urllib3 开始强制校验该 header 的值必须是有效的 Base64 编码字符串。

* 同时，Base64 解码后的字符串必须严格符合 username:password 的格式。

* 如果认证信息没有经过正确的 Base64 编码，或者格式不达标，urllib3 会直接拒绝发送请求并返回 407 错误。

如果在维护爬虫项目时，某次依赖更新（例如执行了 pip install --upgrade requests）将 urllib3 从 1.25.x 升级到了 1.26+，这个问题就会立刻暴露出来。

结合爬虫代理的解决方案

在编写爬虫并接入代理时，我们可以通过以下几种方案来修复此问题并提升爬虫的稳定性。

方案一：正确构造 Base64 认证头（通用推荐）

对于可以修改代码的维护中项目或新项目，推荐升级依赖库并手动构建符合标准的请求头。早期的错误写法往往是直接将明文凭证拼接到请求头中，这会被新版 urllib3 拒绝。

正确的方式是利用 Python 的 base64 模块对凭证进行编码。以下是结合爬虫代理（包含域名、端口、用户名和密码）的爬虫实战代码：

import base64

import requests

# 亿牛云标准版代理配置信息

proxy_domain = "proxy.16yun.com"

proxy_port = "8080"

username = "your_username"

password = "your_password"

# 拼接代理 URL

proxy_url = f"http://{proxy_domain}:{proxy_port}"

# 正确写法：严格进行 Base64 编码

credentials = f"{username}:{password}"

encoded_credentials = base64.b64encode(credentials.encode('utf-8')).decode('utf-8')

proxies = {

"http": proxy_url,

"https": proxy_url,

}

# 构造符合 urllib3 1.26+ 标准的认证头

headers = {

"Proxy-Authorization": f"Basic {encoded_credentials}",

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36"

}

try:

resp = requests.get("目标网站",

proxies=proxies,

headers=headers,

timeout=10)

print(f"请求成功，状态码: {resp.status_code}")

except Exception as e:

print(f"请求失败: {e}")

方案二：使用标准代理 URL 格式自动解析

爬虫代理提供隧道代理服务，建议直接通过其控制台或 API 获取标准的代理 URL。标准的 URL 格式为 http://用户名:密码@代理域名:端口，直接使用这种格式可以让 requests 自动处理认证信息的注入。

* 建议在使用爬虫代理时优先选择“隧道代理”模式。

* 因为隧道代理的认证信息是通过独立隧道传输的，不依赖于请求 header，这样可以进一步减少 407 错误出现的概率。

方案三：临时降级 urllib3（应急止血）

如果项目属于历史遗留代码，或者受到第三方依赖的强约束，在紧急上线前可以采用降级方案。

* 可以通过运行 pip install 'urllib3<1.26' 将版本锁定在 1.25.x。

* 降级后，可以通过打印 urllib3.__version__ 确认版本是否为 1.25.x，并测试代理连通性。

* 由于 urllib3 1.26+ 修复了其他安全漏洞，长期维护的项目不建议使用此方案，以免暴露安全风险。

爬虫代理验证机制

无论采用哪种代码修复方案，上线前都必须经过严格的结果验证：

1. 使用一个已知且稳定的目标地址进行测试。

2. 检查代码返回的 HTTP 状态码是否为正常的 200。

3. 解析 JSON 响应，检查返回的 origin 字段是否已经成功变为代理出口 IP，而不是你本地环境的 IP。

4. 执行多次请求（建议至少 5 次），观察是否还会存在偶发性的 407 错误。

5. 如果经过修复后仍有偶发性 407，应当检查代理服务商的请求频率限制机制或是其 IP 切换策略是否触发了阻断。

解决 Python 爬虫代理 407 错误：基于 urllib3 更新与爬虫代理的实战指南

解决 Python 爬虫代理 407 错误：基于 urllib3 更新与爬虫代理的实战指南

相关阅读更多精彩内容

友情链接更多精彩内容