selenium

1.select 下拉框的选取

http://www.cnblogs.com/fnng/p/5361443.html

2.css元素定位

//相对定位不准确
http://blog.sina.com.cn/s/blog_7424a02601014lnn.html
//全部css语法
http://www.w3school.com.cn/cssref/css_selectors.asp

3.innerHTML和outerHTML

两者区别
<div id="test"> 
 <span style="color:red">test1</span> test2 
</div>

test.innerHTML: test标签内的所有全部内容(包涵标签,和标签的内容)
输出: <span style="color:red">test1</span> test2 
test.outerHTML: test标签开始位置到结束位置的全部内容(包涵标签,和标签的内容))
 //除了包含innerHTML的全部内容外, 还包含对象标签本身。
输出:<div id="test"><span style="color:red">test1</span> test2</div>
ps,还有相应的innerText、outerText,但是是在js中selenium中暂未发现
selenium 中使用
webelement.get_attribute('innerHTML')

4.显示等待和隐式等待

http://www.jb51.net/article/92684.htm

5.错误集合

1.调用代码

action = ActionChains(self.driver)
        action.drag_and_drop_by_offset(dragger, x_offset, y_offset).perform()

错误提示

selenium.common.exceptions.WebDriverException:
Message: POST /session/32bb8e24-dac2-de46-bde3-e6b15c023b01/moveto did not match a known command

解决方法:

firefox 46.0以上会有兼容问题
https://www.zhihu.com/question/53635288
http://stackoverflow.com/questions/40360223/webdriverexception-moveto-did-not-match-a-known-command

so, 更换驱动,

6.frame/iframe

当页面元素定位不到时(css,xpath书写无误), 要判断该元素是否在frame中或iframe中
frame(iframe)相当于在页面中嵌套了一个网页,然而,driver一次只可以操纵一个网页.所以无法定位到frame中的元素.
这事可以使用selenium中的 switch_to_frame 方法
如有多个frame嵌套需要多次switch_to_frame
返回上一个frame的方法

driver.switch_to.frame('frame3')
//如果上一层是主文档则这个方法无效

切回主文档的方法

driver.switch_to.default_content()

7.alert/confirm/prompt 的处理

webdriver 中处理 JavaScript 所生成的 alert、confirm 以及 prompt 是很简单的。具体思路是使用 switch_to.alert()方法定位到 alert/confirm/prompt。然后使用 text/accept/dismiss/send_keys 按需进行操做。

 text      返回 alert/confirm/prompt 中的文字信息。
 accept 点击确认按钮。
 dismiss       点击取消按钮 ,如果有的话。
 send_keys   输入值,这个alert\confirm没有对话框就不能用了,不然会报错。
#获取网页上的警告信息 
alert=driver.switch_to_alert()
#取消对话框(如果有的话)
alert = driver.switch_to_alert() alert.dismiss()

#输入值(如果有的话)
alert = driver.switch_to_alert() 
alert.send_keys(“xxx”)
上传文件

定位都输入框后, drive直接调用send-key发送文件路径即可.

下载
fp = webdriver.FirefoxProfile()
fp.set_preference("browser.download.folderList",2)
fp.set_preference("browser.download.manager.showWhenStarting",False)
fp.set_preference("browser.download.dir", os.getcwd())
fp.set_preference("browser.helperApps.neverAsk.saveToDisk", "application/octet-stream")
browser = webdriver.Firefox(firefox_profile=fp) browser.get("http://pypi.python.org/pypi/selenium") browser.find_element_by_partial_link_text("selenium-2").click()
cookie处理
get_cookies() 获得所有cookie信息

get_cookie(name) 返回特定name有cookie信息

add_cookie(cookie_dict) 添加cookie,必须有name和value值
delete_cookie(name) 删除特定(部分)的 cookie 信息
delete_all_cookies() 删除所有cookie信息

8.网页加载时长(或禁止js加载)设置

写爬虫的过程中,页面等待基本上浪费的很多时间,特别是当你遇到页面元素布局都明明已经加载完毕,浏览器却提示正在加载js (如:js.tongji.linezing.com,量子统计改服务早已停止服务,但是有的网站并未及时更新)的时候,你一定想把这个js加载干掉.
方法如下:

8.1网页加载时长加载设置
from selenium.common.exceptions import TimeoutException
from selenium import web driver

    driver = webdriver.Firefox(executable_path='/Users/Documents/python/driver/geckodriver')
    #设置selenium的页面加载超时时间
    driver.set_page_load_timeout(time_to_wait=15)

    try:
        driver.get('http://www.chinanyjs.com/channel/20925543')
    except Exception ,e:
        if isinstance(e,TimeoutException):
            #停止selenium的记载
            driver.execute_script('window.stop()')
    finally:
        pass

    #进行页面页面元素解析
    ...

set_page_load_timeout方法来设置页面加载时长,如果超出这个时长driver会主动抛出异常.你就可以在捕获的语句中(即上文except Exception ,e:) 停止selenium的加载

8.2, 禁止加载js(慎用)

设置方法同上(8.1), 有的页面是需要js来加载数据的,所以这个方法是需要谨慎使用(一般使用8.1)

9.多窗口切换
        driver = self.driver
        driver.get(self.url)
        now_handle = driver.current_window_handle #获取当前窗口句柄
        print now_handle   #输出当前获取的窗口句柄
        driver.find_element_by_id("kw1").send_keys("selenium")
        driver.find_element_by_id("su1").click()
        driver.find_element_by_xpath("//*[@id='1']/h3/a[1]").click()
        time.sleep(2)
        all_handles = driver.window_handles #获取所有窗口句柄

        for handle in all_handles:
            if handle != now_handle:
                print handle    #输出待选择的窗口句柄
                driver.switch_to_window(handle)
                driver.find_element_by_xpath("//*[@id='menu_projects']/a").click()
                time.sleep(5)
                driver.close() #关闭当前窗口
        time.sleep(3)
        print now_handle   #输出主窗口句柄
        driver.switch_to_window(now_handle) #返回主窗口

多窗口切换主要还是使用driver.window_handles 进行循环便利,也就是当你有多个窗口时,需要自己维护window_handles的对应列表,方便自己切换窗口(一般情况下,不会有太多的窗口共存)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,099评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,828评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,540评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,848评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,971评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,132评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,193评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,934评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,376评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,687评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,846评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,537评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,175评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,887评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,134评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,674评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,741评论 2 351

推荐阅读更多精彩内容