他山之石,可以攻玉——Selenium爬虫应用初探

前 言

所谓爬虫,简单来说就是通过网络请求获取内容并解析出结果的过程,当中以网页爬虫最为常见。然而随着Web应用的日益复杂化,各种Ajax和JS加持的Web页面对于爬虫来说,在请求内容这第一步就造成了不小难度。爬虫工程师们往往不得不苦于分析网页请求中各种不明意义的字段,开始一段心酸的JS探寻之旅。而此时,来自测试领域的一套自动化测试工具,却给爬虫工程师们带了新的曙光——她,就是Selenium。

关于Selenium

Selenium是一套Web应用的自动化测试框架,拥有完整的浏览器支持,通过模拟浏览器的真实操作实现Web应用测试,并且提供简单好用的录制/回放工具让使用者无需了解脚本语言就能写出可以执行的测试用例。

Selenium底层由各种web driver驱动,提供丰富的API接口。对Python/Java等语言的支持,再配合上headless的浏览器(如PhantomJS),注定会成为爬虫工程师手中的利器!

实践看亮点

准备

Python 2.7.12

python-selenium 3.0.0

Selenium Webdriver(本文因可视化展示所需,所以用到chromedriver,实际爬虫应用中,一般常用PhantomJS作为headless浏览器)

亮点

1、完整的Web支持

得益于Selenium的运行机制,因为实际启用了浏览器,所以能够对Web应用进行完整的支持。一句话:浏览器看到的样子就是爬虫可以获取到的内容,所以在用Selenium编写爬虫的过程中,爬虫开发者不用再纠结于网页请求的分析,只需关注于页面解析即可。

以某企业信息查询网站查询“星巴克”为例,抓包可知其实际查询请求如下:

如图可见该接口的请求cookie中带有一个神奇的token字段。令人比较遗憾的是,该token并非是来自于其它请求的返回,而是由JS生成。

通常情况下,需要找到生成该token的JS代码段,分析其输入输出,使用JS执行器或者将该部分JS的逻辑自行实现,以获得token。而使用Selenium编写爬虫,则不用关心这个部分,短短几行就可以完成一次页面查询。代码示例:

从查询结果页的URL来看,我们还能更进一步简化查询操作,甚至一句代码就能完成,如下:

2、支持响应式交互

浏览网页中,经常会遇到执行某些操作后才出现相关页面元素的情况。这种场景用普通爬虫方式很难模拟,但对于Selenium来说,却有着先天优势。

以中国电信登录页为例,对于多次登录错误的帐号会出现图片验证码,而该验证码只有在输入帐号后才会出现。普通做法,分析整个过程中执行了哪些请求,请求cookie和请求参数如何获得,然后模拟发送请求获取结果。例如该场景中,通过抓包分析可知当中有三次关键请求(如图)。

第一次根据号码获得城市代码,第二次检查对应手机号登录是否需要验证码,第三次获取验证码图片。

然而仅仅看这三次请求,其所需输入都是欠缺的,因此整个分析过程会变得非常繁杂。此时使用Selenium直接模拟登录操作,不失为一种简单有效的方法。整个模拟过程如图所示:

代码示例:

3、丰富的html解析支持

Selenium API提供丰富的方法获取页面元素,支持多种方式进行元素定位选择,比如根据元素id,name,xpath,css选择器等。

find_element_by_id

find_element_by_name

find_element_by_xpath

find_element_by_link_text

find_element_by_partial_link_text

find_element_by_tag_name

find_element_by_class_name

find_element_by_css_selector

当然同时也支持直接返回网页源代码,然后再自行使用其它第三方html解析库进行解析。

4、动作链(ActionChains)

动作链是Selenium提供的用于模拟自动化交互的方式,如鼠标移动,鼠标按键点击,键盘按键点击和复杂菜单交互等等。在复杂的动作场景中,比如拖拽和滑动,非常有用。

基于此,Selenium爬虫可以实现一些普通爬虫难以实现的功能,比如特征位点击、滑动验证码自动验证等。以某常见滑动验证码为例,合理使用动作链可以实现自动验证,效果如下图所示:

注:具体实现方式不在本文敖述,大概思路为:获取完整背景图片及缺块图片,通过比较获得缺块位置,得出滑动距离,再用Selenium模拟鼠标拖拽滑动实现自动滑动验证。示例中可以看出两次尝试后才验证成功。因此成功率并非100%,所以加入自动重试以保证验证结果。

总结

优点

通过以上几个例子可以看出,在网页爬虫中应用Selenium的优势特别明显。

完全浏览器化的操作简化掉了请求分析的过程,让爬虫开发更多关注于页面解析和结果处理。

爬虫实现难度比较低。对于某些特殊的场景,比如对同样功能的查询类网站进行查询接口封装,Selenium能够通过模拟浏览器的查询操作快速实现。

缺点

因为Selenium实际上使用了浏览器,所以其缺点也显而易见。

资源占用大,每开一个浏览器进程就会占用将近20MB左右内存,在爬虫应用中需要进行及时关闭释放,因此这也注定了Selenium爬虫不适用于批量爬取。

速度慢,因为浏览器请求页面会加载所有相关的资源请求,同时还有页面操作的模拟过程,会导致爬虫的执行周期较长,因此也不适用于即时性要求较高的场景。

来自于测试领域的Selenium,对于爬虫应用来说是一柄利剑同时也是一把重剑,只有恰当的取舍和准确的使用才能真正达到“他山之石,可以攻玉”的最终目的。

本文作者:彭英杰(点融黑帮),就职于点融成都Data Team,负责接口集成以及爬虫开发工作。喜欢折腾新事物,爱游戏,爱运动。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,634评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,951评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,427评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,770评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,835评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,799评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,768评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,544评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,979评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,271评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,427评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,121评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,756评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,375评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,579评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,410评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,315评论 2 352

推荐阅读更多精彩内容