python 爬虫

之前写过一些简单的爬虫就是爬一下最新的公告,直接用requests库Get一下然后beautifulsoup去找就可以找到了,其他的处理就是处理html的东西了。


但是昨天有个任务是,按原来的方法打开,啥也看不到,原来是个动态网站靠js注入执行的,想到以前的东西了,无头浏览器。phantomJS,然后稍微配置了一下运行,发现webdriver已经放弃phantomJS了。在动态网页的解析上还是考webdriver去那网页源代码,后来没有办法就只能用别的办法了,google了一下,用firefox的比较多,也有原生的支持,库的安装直接pip3 install 就ok了,之后又提示我没有geckodriver,我也不知道怎么回事,查吧。mac环境下直接brew install 就ok。但是记得加到bin路径去,Linux下的话wget  下载网址解压就行。也记得加到bin目录下。

之后记得一定要有实体的浏览器啊,mac 安装浏览器就行,linux也是apt install就行,我装了两个服务器,安装完了就行了。

贴一下代码吧,比较简单,记录,怕自己以后又重新找,。。。


©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容