Python抓取网页动态数据——selenium webdriver的使用

1. 文章目的

当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得url的html内容,然后使用BeautifulSoup抓取某个标签内容,结合正则表达式过滤。但是,用urllib.urlopen(url).read()获取的只是网页的静态html内容,很多动态数据(比如网站访问人数、当前在线人数、微博的点赞数等等)是不包含在静态html里面的,例如我要抓取这个bbs网站中点击打开链接 各个板块的当前在线人数,静态html网页是不包含的(不信你查看页面源代码试试,只有简单的一行)。像这些动态数据更多的是由JavaScript、JQuery、PHP等语言动态生成的,因此再用抓取静态html内容的方式就不合适了。

2. 解决思路

我尝试过网上所说的用浏览器自带的开发者工具(一般是F12弹出相应网页的开发者工具),查看网络可以获得动态数据的走向,但这需要从众多的url中找出蛛丝马迹,个人觉得太麻烦了。另外,用查看器查看的html内容也是包含动态数据的,但这有几个问题:怎么实时获取查看器的html内容?怎么将查看器的html导入python程序?因此利用查看器的html内容的方法也是不符合抓取程序要求的。
而偶然间发现了selenium模块,发现这个模块可以很方便地根据url加载页面获得session,并找到当前session的相应标签。本文将通过selenium webdriver模块的使用,以获取这些动态生成的内容,尤其是一些重要的动态数据。其实selenium模块的功能不是仅仅限于抓取网页,它是网络自动化测试的常用模块,在Ruby、Java里面都有广泛使用,Python里面虽然使用相对较少,但也是一个非常简洁高效容易上手的自动化测试模块。通过利用selenium的子模块webdriver的使用,解决抓取动态数据的问题,还可以可以对selenium有基本认识,为进一步学习自动化测试打下基础。

3. 实现过程

3.1 运行环境

我是在windows 7系统上安装了Python 2.7版本,使用Python(X,Y)这个IDE,安装好的Python库没有自带selenium,在Python程序中直接import selenium会提示没有这个模块,联网状态下cmd直接输入pip install selenium,系统会找到Python的安装目录直接下载解压并安装这个模块。等到终端提示完成后可以看看,在C:\Python27\Lib\site-packages目录下有没有selenium模块,这个目录取决于你安装Python的路径。如果有selenium和selenium-2.47.3.dist-info这两个文件夹,代表模块可以在Python程序中被加载了。
使用webdriver抓取动态数据

  1. 先导入webdriver子模块
    from selenium import webdriver
  2. 获得浏览器的session,浏览器用Firefox、Chrome、IE等都可以,这里以Firefox为例
    browser = webdriver.Firefox()
  3. 加载页面,url自己指定一个合法的字符串即可
    browser.get(url)
  4. 获得了session对象后,要定位元素,webdriver提供了一系列的元素定位方法,常用的有以下几种方式:
    id
    name
    class-name
    link
    text
    partial
    link
    text
    tag
    name
    xpath
    cssselector
    比如通过id定位,返回所有元素组成的list,lis=borwser.find_elements_by_id_name('kw'')
    通过class-name定位,lis=find_elements_by_class_name('title_1')
    更详细的定位方式可以参考selenium webdriver(python)教程的第三章-定位方式部分(第一版可在百度文库阅览)
  5. 结合正则表达式过滤相关信息
    定位后的元素有些是不想要的,用正则过滤掉即可,比如我想只提取英文字符(包括0-9),建立下面的正则
    pa=re.compile(r'\w+')
    for u in lis:
    en=pa.findall(u.lis)
    print en
  6. 关闭会话
    当执行完抓取操作后,必须关闭session,不然让它一直占内存会影响机器其他进程的运行
    browser.close()或者browser.quit()都可以关闭session,前者只是关闭当前的session,浏览器的webdriver不关闭,后者则是包括webdriver这些东西全部shut down
  7. 加入异常处理
    这是有必要的,因为有时会获得session失败,因此要把上述语句块放入try里面,然后exception处理异常
    except NoSuchElementException:
    assert 0, "can't find element"

4. 代码实现

我抓取了点击打开链接 指定分区中各个板块的在线人数,指定分区id号(0-9),可以获得板块名称和对应的在线人数,形成列表打印出来,代码如下

[python] view plain

# -*- coding: utf-8 -*-  
  
from selenium import webdriver  
from selenium.common.exceptions import NoSuchElementException  
import time  
import re  
  
def find_sec(secid):  
    pa=re.compile(r'\w+')  
    browser = webdriver.Firefox() # Get local session of firefox  
    browser.get("http://bbs.byr.cn/#!section/%s "%secid) # Load page  
    time.sleep(1) # Let the page load  
    result=[]  
    try:  
        #获得版面名称和在线人数,形成列表  
        board=browser.find_elements_by_class_name('title_1')  
        ol_num=browser.find_elements_by_class_name('title_4')  
        max_bindex=len(board)  
        max_oindex=len(ol_num)  
        assert max_bindex==max_oindex,'index not equivalent!'  
          
        #版面名称有中英文,因此用正则过滤只剩英文的  
        for i in range(1,max_oindex):  
            board_en=pa.findall(board[i].text)  
            result.append([str(board_en[-1]),int(ol_num[i].text)])  
              
        browser.close()  
        return result  
        except NoSuchElementException:  
            assert 0, "can't find element"  
  
         
print find_sec('5')  #打印分区5下面的所有板块的当前在线人数列表 

运行结果如下:

终端打印效果

4. 总结

无论是从代码简洁度还是执行效率上看,selenium都非常优秀,用selenium webdriver抓取动态数据非常简洁高效,进一步地利用这个实现数据挖掘、机器学习等深层研究也是可以的,因此selenium+python是很值得深入学习的!如果觉得用selenium每次打开浏览器很不方便,可以用phantomjs模拟一个虚拟浏览器出来,在这里就不做赘述了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容