python3的爬虫笔记8——动态加载页面爬虫

其实大部分主流网站都不是静态的html,html和Javascript相结合已经是大势所趋。
本篇以花瓣网主页为例子。
花瓣网主页,右键查看网页源代码,获得的页面是这样的:


如果还是用之前静态页面的那一套(用requests和urllib)。由于获得的是静态页面,这时动态JS都还没加载出来,那肯定是啥都挖不出来了。

这里讲讲几种解决方法:

(1)方法一:

直接调出开发者工具,复制element的html代码,保存,用正则或BeautifulSoup或xpath提取信息。



办法很土,不过好处是绕开了模拟浏览器环境的坑。使用有较大局限性
注意:这里还可以复制Xpath和selector(对应BeautifulSoup中的select方法),这个能让我们无脑对进行单项定位。

(2)方法二:

我们可以先右键看下我们要采集的图片地址的格式:


大概格式就是' http://img.hb.aicdn.com/ '+'图片特有编号'+‘_sq320’

我们把编号直接在静态的网页源代码中搜一下,


发现图片的编号在JS中,用Xpath或BeautifulSoup是没有办法提取的,可以利用正则表达式来提取信息

但是这个页面非常恶心,实现起来会非常累。而且在首页中后缀是‘_sq320’,在其他页面还有'_sq236bl4',‘_fw658’,‘_fw236’的格式,还要对这些进行判断也非常麻烦,这种方法有较大局限性。

(3)方法三:

用谷歌插件web Scraper实现,无需编程。
不写代码的爬虫,10分钟搞定中有详细的介绍,还有视频可以学习。
对多数网站都挺适用的,我还没怎么用过,还在学习如何使用中。

(4)方法四:

分析JS源码 找出请求 自己模拟实现 难度比较高 。
这里有个今日头条的案例:http://www.jianshu.com/p/4fe8bb1ea984 ,讲的很棒很详细,但是有时API接口找不着或者是API接口地址随机变换,那还是得用万能的方法五。

(4)方法五(最有效):

模拟浏览器实现。比较常见的是 Selenium + PhantomJs ,基本上能解决大多数的爬虫问题,但是效率比较低,一般要配合多进程。

Selenium(点我查看中文文档,请务必先浏览一遍)是一个自动化测试框架。它能够模拟人工操作,比如能在浏览器中点击按钮、在输入框中输入文本、自动填充表单、还能进行浏览器窗口的切换、对弹出窗口进行操作。也就是说你能手动做的东西,基本都能用它来实现自动化!
Selenium模块可以在cmd中进行安装。

Selenium的安装

Selenium当前支持的WebDriver有: Firefox, Chrome, IE and Remote等。
当然也包括Phantomjs。Phantomjs是一个“无头”浏览器,也就是没有界面的浏览器,但是功能与普通的浏览器无异,但占用较少的内存。
phantomjs-2.1.1官方下载地址
不知道为啥我下载时老出问题,所以再放一个CSDN的下载地址phantomjs-2.1.1CSDN下载地址
解压后可将phantomjs.exe的路径设置到环境变量中,以win10系统为例:我的电脑 -> 右键“属性” -> 点击“高级系统设置” -> 点击“环境变量”,可以看到当前path的一些路径, 为了方便,将phantomjs.exe放入到path的已有路径中。
当然,不进行环境变量设置也行,只不过是程序需要声明phantomjs.exe的位置罢了。

但是使用Phantomjs的时候,有时遇到问题的时候要卡壳很久,因为不是可视化界面,很多东西感觉像是空想。因此,一般可以使用chrome来进行编写程序,然后最后再换成Phantomjs就好了(小爬虫直接用chrome也就行了)。这里需要用到chromedriver(点击下载),然后根据需要设置环境变量,方法和phantomjs.exe的一样。chrome我用58版本的会报错,后来装了chrome52.0.2743.116版本(32位百度盘链接: http://pan.baidu.com/s/1c2t6Ei8 密码: k9y8),能够成功运行,建议不要选太新的版本。
我在实际编程中,Phantomjs有时莫名报错,就算没报错等待的时候也觉得很乏味2333,用chrome就没问题。所以还是更加推荐先用Selenium + Chrome。

以爬取花瓣网首页的图片地址为例:

from selenium import webdriver
from bs4 import BeautifulSoup
#打开一个浏览器,若phantomjs.exe或chromedriver.exe在环境变量中
#可精简为driver = webdriver.PhantomJS()或driver = webdriver.Chrome(),否则要表明路径
driver = webdriver.Chrome(executable_path="D:\\Anaconda3\\chromedriver.exe")
#窗口最大化
#driver.maximize_window()
#访问网站
driver.get('http://huaban.com')
#获得网页信息
soup = BeautifulSoup(driver.page_source, "lxml")
#利用开发者工具找到我们需要的图片地址
results = soup.select('img[data-baiduimageplus-ignore="1"]')
#for r in results时发现有最后两个列表元素不是我们需要的网址,用[0:-2]去除
for r in results[0:-2]:
    print('http:'+r['src'])
#关闭浏览器
driver.quit()

运行结果:


关于Selenium还有好多其他的用法,比如点击登录,滚动页面等等,还有iframe框架怎么处理。先挖个坑,接下来还得再讲讲。

不错的简单案例:http://www.2cto.com/kf/201704/622848.html

PS:我本身也是python刚刚入门,很多东西也不太懂,也是一点一点在学,所以网友们的问题我大多也都答不上来,只是提供一个简单的模板,大家一起参考。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,590评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,808评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,151评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,779评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,773评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,656评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,022评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,678评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,038评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,756评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,411评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,005评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,973评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,053评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,495评论 2 343

推荐阅读更多精彩内容