【爬虫】python 解决网页内容和爬取的内容不一致

我们使用 request 模块获取网页内容的时候，有时候会发现获取的网页内容和网页上不一样，

有些数据并非服务端渲染，而是通过后来加载的数据，某些网站重要的数据会通过Ajax后期加载，

这就分异步传输和异步加载俩个概念。

异步传输模式下，通常在JavaScript中，我们依次检查JavaScript，就会找到真正的网址！

异步加载则是在XHR的选项中获取真实网站地址：

举例豆瓣的影片获取信息：

页面上的内容可以看到，但是爬下来之后却没有：

JS加载的页面

XHR获取网页加载的内容：

XHR页面

分别检查左边5条记录，就可以看到真实的我们想要的内容。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

3赞4赞

赞赏

手机看全文

【爬虫】python 解决网页内容 和 爬取的内容不一致