python 爬虫

之前写过一些简单的爬虫就是爬一下最新的公告，直接用requests库Get一下然后beautifulsoup去找就可以找到了，其他的处理就是处理html的东西了。

但是昨天有个任务是，按原来的方法打开，啥也看不到，原来是个动态网站靠js注入执行的，想到以前的东西了，无头浏览器。phantomJS，然后稍微配置了一下运行，发现webdriver已经放弃phantomJS了。在动态网页的解析上还是考webdriver去那网页源代码，后来没有办法就只能用别的办法了,google了一下，用firefox的比较多，也有原生的支持，库的安装直接pip3 install 就ok了，之后又提示我没有geckodriver,我也不知道怎么回事，查吧。mac环境下直接brew install 就ok。但是记得加到bin路径去，Linux下的话wget 下载网址解压就行。也记得加到bin目录下。

之后记得一定要有实体的浏览器啊，mac 安装浏览器就行，linux也是apt install就行，我装了两个服务器，安装完了就行了。

贴一下代码吧，比较简单，记录，怕自己以后又重新找，。。。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python 爬虫

python 爬虫

相关阅读更多精彩内容

友情链接更多精彩内容