Python Selenium Chromedriver-headless安装以及解坑

安装:

        1、需要安装selenium,只需要在终端中输入   pip install selenium   (推荐使用anaconda创建python环境,谁用谁知道。)

        2、下载chromedriver。

            下载地址:http://chromedriver.storage.googleapis.com/index.html

            chromedriver与chrome对应版本查看方法:点击任意版本,查看notes.txt,可查看到版本对应关系,如:

                                              ----------ChromeDriver v2.39 (2018-05-30)----------

                                                                 Supports Chrome v66-68

            一定要确认自己的chromedriver版本和chrome浏览器版本对应上,否则会出现各种神奇的错误。

        3、安装方法。

            windows下解压到你设定的目录即可。

            接下来详细讲解linux下安装,我安装的linux机器为centos7版本,centos6请最好选择升级到7,不要在6挣扎了,全是眼泪。

            正式安装步骤:

                1、安装chrome。

                        yum install epel-release

                        yum install libappindicator-gtk3

                        yum localinstall google-chrome-stable_current_x86_64.rpm

                    执行 google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com/ 

                    即可看到当前目录下有一个百度网页的截图,说明安装完成。(本人迁移过三次机器,都用的这套命令没有出现过问题,如果有遇到其他问题,欢迎贴出来)

                    执行  /usr/bin/google-chrome -version   可以查看当前谷歌浏览器版本。

               2、安装chromedriver。

                    将从网站上下载的chromedriver 放入/etc/bin/ 文件夹下,   cd /etc/bin/    

                    执行 ./chromedriver   无报错,安装成功,执行   ln -s /etc/bin/chromedriver /usr/bin/chromedriver     创建软连接。即可在终端直接输入 chromedriver 即可运行chromedriver。

                3、在python中执行测试代码。

 vim tmp.py 

写入:

#coding:utf-8

from selenium import webdriver

options = webdriver.ChromeOptions()

options.add_argument('--no-sandbox')

options.add_argument('headless')

driver = webdriver.Chrome(chrome_options=options)

url = 'http://www.baidu.com'

driver.get(url)

print(driver.page_source)

driver.close()

driver.quit()

                    运行  python tmp.py     输出百度网页的源码,表示安装成功。

基础功能:

   from selenium import webdriver                #导入需要的包

options = webdriver.ChromeOptions()        #在options 中可添加其他配置属性 如添加header头,添加代理等。

options.add_argument('--no-sandbox')        #以 no sandbox方式启动

options.add_argument('headless')                #headless模式启动

options.add_argument('--proxy-server=http://ip:port')     #添加代理IP

driver = webdriver.Chrome(chrome_options=options)     #创建一个driver对象,后续通过这个driver实现对浏览器的操作。

driver.get("https://www.baidu.com")    #打开百度

driver.page_source  #获取源码           driver其他基本功能请自行百度或谷歌

接下来内容请在学会基本操作后观看(高级功能版,,,,,又名踩坑简介):

    窗口句柄操作:

        当需要切换多个网页时,可以使用:

#获取句柄

handles = driver.window_handles #返回一个句柄列表 脚标从0开始

#切换页面 driver.switch_to.window(handles[1]) #切换到新页面 #执行完操作需切换回主页面,不会自动切换 

driver.switch_to.window(handles[0]) #ps 不重新获取句柄,页面句柄位置不变

    select选择框操作:

from selenium.webdriver.support.select import Select   #首先导入select的包

#select 选择框 指定选择

pr = driver.find_element_by_xpath(xxx)

Select(pr).select_by_index(index) #位置选择

Select(pr).select_by_value(value) #value选择

Select(pr).select_by_visible_text(text) #文本内容选择

#反选(取消选择,一般用不到)

deselect_by_index(index)

deselect_by_value(value)

deselect_by_visible_text(text)

deselect_all()

#其他返回selete选择框内容

Select(pr).options ——提供所有的选项的列表

Select(pr).all_selected_options ——提供所有被选中的选项的列表

Select(pr).first_selected_option ——提供第一个被选中的选项

目前,写到这,长期更新---




ps:补,第一坑:

    当网页加载缓慢,但有时需要的内容已经加载完成时,我们需要给程序设定超时时间,当超时后强制停止浏览器。目前百度谷歌等给出的解决办法都是

driver.set_page_load_timeout(10)

driver.set_script_timeout(10)

之后捕获超时的异常然后执行js

try:

    pass

except:

    driver.execute_script('window.stop()')

driver.find............ #执行其他动作会发现异常捕获有时会失败,有时js语句执行成功但是再调用 driver的其他方法会报错,大家可以用下面方法解决

解决办法(此方法适用于长期稳定运行的程序,并及时释放chromedriver进程,减少内存浪费):

driver_is_ok= True    #增加一个标识

try:

    driver.get(url=url)

except:

    try:

        driver.execute_script('window.stop()')

    except:

        driver_is_ok= False

if driver_is_ok:

    pass  #执行需要的操作

else:

    try:

        driver.close #退出当前标签页

        driver.quit    #退出浏览器

    except:

        pass

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342