Python调用Selenium动态加载JS

Selenium

1.安装与配置

selenium是一个可以用来模仿用户使用浏览器的工具,它其实是作为一个接口让你的程序可以模拟浏览器的真实访问,所以一般也拿来做自动化测试。

>>>pip3 install selenium  安装

另外,selenium实际上需要通过浏览器的driver来操纵浏览器,所以在使用selenium操纵所需浏览器时,需要先安装对应的浏览器的driver文件,一般的driver文件就是一个比较小的可执行文件,例如下图就是Chrome的driver文件。

chromedriver

安装好后,就可以在程序中使用了,以下是初始化的代码,其中参数executable_path后就填写driver文件的路径就好了。

初始化
配置路径

2.获取网页源码

当执行以下几行代码时,程序会自动打开一个浏览器页面,以及打印通过JS加载后生成当一个html页面。

selenium自动打开页面

2.获取网页元素的查找

selenium自带的文本解析方法

当然,如果你不习惯用selenium自带的网页解析方法,我们也可以用BeautifulSoup.

引入Beautifulsoup解析

当然,如果你想对取出的元素进行其它操作,例如点击,那么就必须使用selenium自带的方法。

点击元素

3.模拟登录

我们可以用send_keys方法向input标签输入值,包括用户、密码进行登录

填充数据

4.模拟鼠标滑动

5.设置chromedriver不加载图片

有时候,在特定情况下为了提高爬虫效率,不希望加载图片,这时可以进行一定的设置。

chromedriver不加载图片的设置

PhantomJS

PhantomJS是一个无界面浏览器,这个浏览器比一般的有界面浏览器要轻量,某些时候效率也更高,但是请注意:多进程情况下这个浏览器性能会下降很严重! 另外在某些Linux、Ubuntu系统没有界面时,就可以使用这个浏览器。

安装:http://phantomjs.org/download.html

其它方面的使用和上面其它浏览器一样。

其它浏览器的无界面访问

对于python来说,除了PhantomJS外,在其它浏览器上也可以进行无界面访问:

1.安装pyvirtualdisplay

>>>pip3 install pyvirtualdisplay

2.配置pyvirtualdisplay

每次打开browser前,添加如下几行代码就可以进行无界面访问了。

配置pyvirtualdisplay

另外,需要注意的是,这个库只能在Linux下运行,当然windows下需要无界面运行的可能性也不大。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容