教你的采集程序看懂“伪装”的网页内容

爬虫代理

前言：为什么要理解“伪装网页”？

在电商与数字营销领域，团队在制定市场推广策略时，越来越依赖于数据驱动：

* 运营同事需要随时掌握竞品的价格调整，方便制定促销节奏；

* 品牌部门需要观察用户的反馈和评论趋势，及时优化内容；

* 投资与分析人员会跟踪畅销品类与供需状态，辅助商业决策。

但现实中，很多大型电商站点（以 Amazon 为例），会采用多层次的页面展示策略：用户在浏览器中能看到的价格、库存和评价，并不一定直接写在初始 HTML 里，而是由额外的接口或脚本在后续动态加载。如果只是简单抓取网页源代码，结果往往会发现：要么信息缺失，要么拿到的只是“壳子”。

这篇文章将通过 Amazon 案例，用反面教材型的方式展示常见错误，并逐步说明如何优化请求头配置、借助代理服务，以及分析数据来源，从而获取到真正有用的部分信息。

一、错误案例

初学者常见的写法：

import requests

url = "https://www.amazon.com/dp/B0CGRL44VG"

resp = requests.get(url)

print(resp.text[:500]) # 打印部分HTML

运行结果会发现：

* 页面里找不到价格、评论等关键内容；

* 代码片段里全是 <script>；

* 有时甚至返回验证页面。

原因在于：页面的主要数据并不是静态写死在 HTML 里，而是通过延迟加载的方式呈现。

二、问题所在

1. 关键信息缺失 —— 源码看不到真正数据。

2. 访问被限制 —— 系统可能判断为非常规访问，返回验证页面。

3. 效率受限 —— 多次请求也得不到目标结果。

三、修复思路

1. 引入代理服务

对于访问频繁的情况，可以接入第三方代理服务（这里以爬虫代理为例）：

#设置爬虫代理（参考亿牛云示例 www.16yun.cn）

proxy_host = "proxy.16yun.cn"

proxy_port = "3100"

proxy_user = "16YUN"

proxy_pass = "16IP"

proxy_meta = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"

proxies = {

"http": proxy_meta,

"https": proxy_meta,

}

这样能减少因单一来源访问过多而触发的阻断。

2. 模拟正常用户访问

在请求中补充常见的请求头字段：

headers = {

"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) "

"AppleWebKit/537.36 (KHTML, like Gecko) "

"Chrome/115.0 Safari/537.36",

"Accept-Language": "en-US,en;q=0.9",

"Cookie": "your_cookie_if_needed"

}

url = "https://www.amazon.com/dp/B0CGRL44VG"

resp = requests.get(url, headers=headers, proxies=proxies, timeout=10)

print(resp.status_code)

print(resp.text[:500])

这样能避免部分验证，但仍旧无法直接看到核心字段。

3. 分析数据来源

通过浏览器开发工具观察，可以发现商品价格和评论往往来源于特定接口。例如：

https://www.amazon.com/gp/aod/ajax/ref=aod_f_new?asin=B0CGRL44VG

直接请求这个接口：

import re

api_url = "https://www.amazon.com/gp/aod/ajax/ref=aod_f_new?asin=B0CGRL44VG"

resp = requests.get(api_url, headers=headers, proxies=proxies, timeout=10)

html = resp.text

prices = re.findall(r'\$\d+\.\d{2}', html)

print("示例价格:", prices[:3])

这时就能获取到价格相关的数据片段。

四、总结启示

通过 Amazon 案例，可以得到几点经验：

1. 不要依赖表面 HTML —— 很多站点采用动态加载。

2. 合理使用代理 —— 能有效减少访问限制问题。

3. 适当模拟真实环境 —— 补充请求头等信息。

4. 善用开发工具 —— 找到数据真正的来源位置。

教你的采集程序看懂“伪装”的网页内容

推荐阅读更多精彩内容