只要浏览器能浏览,我就能爬取——selenium+chrome

只要浏览器能浏览,我就能爬取。               ————一只快乐的小爬虫

静态网页的爬取只是基础部分,感觉核心就在于提取网页信息和应对反爬虫,关于这两个方面,我写了两篇文章:

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式

应对反爬虫最简单的策略——随机UA+递归request

很多网站都采取了动态网页,什么是动态网页呢,以最直观的图片网站来说,静态网页里面,页面上所有的元素都可以在html中找到,每个元素都对应着相关的信息,title、href、url、name等等一目了然,我要做的只是抓取和分析,继而提取有用的信息。而动态网页,只有你在浏览器中点击了确切的按钮才会加载出正确的信息,否则只是一个很短的html,里面没有我们所需要的title、href、url、name等信息。这时候就需要真正的浏览器上场了。selenium+chrome(firefox或者phathonJS也可以)基本上可以解决这个问题。

Python+Selenium WebDriver API:浏览器及元素的常用函数及变量整理总结(转载)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

友情链接更多精彩内容