Selenium
1.安装与配置
selenium是一个可以用来模仿用户使用浏览器的工具,它其实是作为一个接口让你的程序可以模拟浏览器的真实访问,所以一般也拿来做自动化测试。
>>>pip3 install selenium 安装
另外,selenium实际上需要通过浏览器的driver来操纵浏览器,所以在使用selenium操纵所需浏览器时,需要先安装对应的浏览器的driver文件,一般的driver文件就是一个比较小的可执行文件,例如下图就是Chrome的driver文件。
安装好后,就可以在程序中使用了,以下是初始化的代码,其中参数executable_path后就填写driver文件的路径就好了。
2.获取网页源码
当执行以下几行代码时,程序会自动打开一个浏览器页面,以及打印通过JS加载后生成当一个html页面。
2.获取网页元素的查找
当然,如果你不习惯用selenium自带的网页解析方法,我们也可以用BeautifulSoup.
当然,如果你想对取出的元素进行其它操作,例如点击,那么就必须使用selenium自带的方法。
3.模拟登录
我们可以用send_keys方法向input标签输入值,包括用户、密码进行登录
4.模拟鼠标滑动
5.设置chromedriver不加载图片
有时候,在特定情况下为了提高爬虫效率,不希望加载图片,这时可以进行一定的设置。
PhantomJS
PhantomJS是一个无界面浏览器,这个浏览器比一般的有界面浏览器要轻量,某些时候效率也更高,但是请注意:多进程情况下这个浏览器性能会下降很严重! 另外在某些Linux、Ubuntu系统没有界面时,就可以使用这个浏览器。
安装:http://phantomjs.org/download.html
其它方面的使用和上面其它浏览器一样。
其它浏览器的无界面访问
对于python来说,除了PhantomJS外,在其它浏览器上也可以进行无界面访问:
1.安装pyvirtualdisplay
>>>pip3 install pyvirtualdisplay
2.配置pyvirtualdisplay
每次打开browser前,添加如下几行代码就可以进行无界面访问了。
另外,需要注意的是,这个库只能在Linux下运行,当然windows下需要无界面运行的可能性也不大。