2018-10-08selenium 禁用加载项

自己以前一直使用 Chrome 后来换成 linux 系统就用了火狐

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

dirver = webdriver.Firefox(firefox_binary=binary, capabilities=caps)

这两个参数我没搞懂是什么,如果有人

dirver.get(url)


关于第一章提到的提升 selenium 速度

①限制 css 加载

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

fp=webdriver.FirefoxProfile()

fp.set_preference("permissions.default.stylesheet",2)

driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)

driver.get(url)

②限制图片加载

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

fp=webdriver.FirefoxProfile()

fp.set_preference("permissions.default.image",2)

driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)

driver.get(url)

③限制 JavaScript 的运行

如果需要抓取的内容不是通过 JavaScript 动态加载得到的,可以禁用 JavaScript 的执行来提高爬取效率,因为大多数网页都会利用 JavaScript 异步加载很多内容

from selenium import webdriver

from selenium.webdriver.firefox.firefox_binary import FirefoxBinary

caps=webdriver.DesiredCapabilities().FIREFOX

caps["marionette"]=False

binary=FirefoxBinary(r'firefox.exe的地址')

fp=webdriver.FirefoxProfile()

fp.set_preference(“Javascript.enabled",False)

driver=webdriver.Firefox(firefox_binary=binary,firefox_profile=fp,capabilities=caps)

driver.get(url)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容