只要浏览器能浏览，我就能爬取——selenium+chrome

只要浏览器能浏览，我就能爬取。 ————一只快乐的小爬虫

静态网页的爬取只是基础部分，感觉核心就在于提取网页信息和应对反爬虫，关于这两个方面，我写了两篇文章：

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式

很多网站都采取了动态网页，什么是动态网页呢，以最直观的图片网站来说，静态网页里面，页面上所有的元素都可以在html中找到，每个元素都对应着相关的信息，title、href、url、name等等一目了然，我要做的只是抓取和分析，继而提取有用的信息。而动态网页，只有你在浏览器中点击了确切的按钮才会加载出正确的信息，否则只是一个很短的html，里面没有我们所需要的title、href、url、name等信息。这时候就需要真正的浏览器上场了。selenium+chrome（firefox或者phathonJS也可以）基本上可以解决这个问题。

Python+Selenium WebDriver API：浏览器及元素的常用函数及变量整理总结（转载）

最后编辑于：2017.12.08 01:53:07

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

只要浏览器能浏览，我就能爬取——selenium+chrome

只要浏览器能浏览，我就能爬取——selenium+chrome

推荐阅读更多精彩内容

友情链接更多精彩内容