phantomj下载地址
https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz2
配置driver:下载driver,并放到环境变量目录,驱动的下载地址如下:
使用动态方法获取数据后,也可以使用bs4,lxml等方法来截取想要获取的数据。
此功能为控制浏览器最大化显示# driver.maximize_window()
保存截图# driver.save_screenshot(baidu.png)
无视ssl证书# '--ignore-ssl-errors=true',
是否缓存# '--disk-cache=yes',
是否加载图片# '--load-images=no'
设置代理IP# '--proxy=%s' % ip, '--proxy-type=https'
设置phantomjs请求头:
from selenium.webdriver.common.desired_capabilitiesimport DesiredCapabilities
dcap =dict(*DesiredCapabilities*.PHANTOMJS)
self.driver = webdriver.PhantomJS(service_args=self.service_args,
executable_path=config.BROWSER_BIN_PATH,
desired_capabilities=self.dcap)
def set_headers(self, source):
self.headers_ext['User-Agent'] =self.select_agent(source)
self.dcap["phantomjs.page.settings.userAgent"] =self.headers_ext['User-Agent']
self.dcap["phantomjs.page.settings.referer"] =self.headers_ext['Referer'] 网站来源
self.dcap["phantomjs.page.settings.host"] =self.headers_ext['Host'] 请求主机地址
headers 是之前设置的缓存