一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】


title: stocksnap 一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
date: 2016-09-18 10:59:28
tags:


参考:原文1#

参考:原文2#

1、原文1采用了scrapy方法,本文改编用selenium方法,并参考原文2首次采用模拟右键来保存图片。

2、网站分析:

首先发现鼠标拖动到图片底部区域,主页又不断加载新的图片,可判断是异步的。另单独查看2个图的xpath,发现总体格式一致,编号部分有差异:

/html/body/div[4]/div[3]/div[2]/div/div[1]/a/img

/html/body/div[4]/div[3]/div[2]/div/div[11]/a/img

这样我们就得到了在firefox下统一的xpath为,注意是删除div[i]部分,留下2个斜杠:

/html/body/div[4]/div[3]/div[2]/div//a/img

此时,可能觉得为啥要删除,而不是用正则式.*代替?测试那样的结果是Nan,也就是说xpath的格式和re格式不能混搭。

而每个jpg地址在src属性中,所以如果想查阅批量的图片地址,则:

/html/body/div[4]/div[3]/div[2]/div//a/img/@src

3、既然这么爽的得到了图片地址,剩下就是批量下载保存了:

这一次,先测试了用firefox模拟人工右键保存的方法,代码如下,保存那块还没整明白,也就是自动到出现图片保存的界面,根本原因是selenium无法操作操作系统级的对话框:

索性快速人工点保存,30个图的保存位置都是重复的,依次得到30个图:

4、随机打开一个图,如下,可见测试ok:


5、代码:

# -*- coding: utf-8 -*-
# python 3.5.2
# Author:vansnowpea
# stocksnap 一个不错的图片网站的图片,右键保存抓取

from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys


print('Please wait...Firefox loading...')
print('---------------------------------')


url = "https://stocksnap.io/"

# 用浏览器实现访问
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)

# 得到总的jpgs的路径集合
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"

# set profile
fp = webdriver.FirefoxProfile()
fp.set_preference('browser.download.folderList', 2)
fp.set_preference('browser.download.manager.showWhenStarting', False)
fp.set_preference('browser.download.dir', './yourfolder/')
fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')



# 保存图片,人工批量点保存,selenium无法操作操作系统级的对话框
for element in driver.find_elements_by_xpath(xpath):
    img_url = element.get_attribute('src')
    img_desc = element.get_attribute('data-desc')

    action = ActionChains(driver).move_to_element(element)
    action.context_click(element)
    action.send_keys(Keys.ARROW_DOWN)
    action.send_keys('v')
    action.perform()

print('Well done! all pictures downloaded.')
print('---------------------------------')

# driver.close()

6、如果图片数量少,人工保存下也无妨,但数量大肯定不行,所以还是用常规的自动写入数据保存的方式。另外此网站是通过ajax异步加载,当鼠标放到首页30个图的下方,也就是浏览器底部区域,他又会自动加载新的图片出来。而通过新的第一层代码的模拟鼠标下移,可以得到更多的图片。千万要注意的是,在python 3中,对数dict的关键词查找是in,比如:if n in previous:而在python 2 中是has_key,比如:if previous.has_key(n):对应代码为:

# python 3.5.2
from selenium import webdriver  
import time  
import urllib


# 爬取页面地址  
url = "https://stocksnap.io/"

# 目标元素的xpath  
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"
  
# 启动Firefox浏览器  
driver = webdriver.Firefox()  
  
# 最大化窗口,因为每一次爬取只能看到视窗内的图片  
driver.maximize_window()  
  
# 记录下载过的图片地址,避免重复下载  
img_url_dic = {}  
  
# 浏览器打开爬取页面  
driver.get(url)  
  
# 模拟滚动窗口以浏览下载更多图片  
pos = 0  
m = 0 # 图片编号  
for i in range(10):  
    pos += i*500 # 每次下滚500  
    js = "document.documentElement.scrollTop=%d" % pos  
    driver.execute_script(js)  
    time.sleep(1)     
      
    for element in driver.find_elements_by_xpath(xpath):  
        img_url = element.get_attribute('src')  
        # 保存图片到指定路径  
        if img_url != None and not img_url in img_url_dic:

            img_url_dic[img_url] = ''  
            m += 1  
            ext = img_url.split('.')[-1]  
            filename = str(m) + '.' + ext  
            #保存图片数据  
            data = urllib.request.urlopen(img_url).read()
            f = open('./van/' + filename, 'wb')
            f.write(data)  
            f.close()  
driver.close()  

7、结果展示:相对第一个方法,获取了更多的图片:


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,125评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,293评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,054评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,077评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,096评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,062评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,988评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,817评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,266评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,486评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,646评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,375评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,974评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,621评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,642评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,538评论 2 352

推荐阅读更多精彩内容

  • WebDriver 进阶 欢迎阅读WebDriver进阶讲义。本篇讲义将会重点介绍Selenium WebDriv...
    厲铆兄阅读 5,810评论 3 27
  • 喜欢那些花儿 却没有办法 使它不凋谢 喜欢成群的鸟儿 却没有能力 使它留在原地 喜欢自由洒脱 却没有一种力量 有冲...
    向北y阅读 267评论 0 0
  • 繁花添锦:什么是成功?这是一个抽象的问题 夜幕里挂着一轮残月,透过窗户吹进来一股凉飕飕的风,谈不上刺骨却也让我打了...
    繁花添锦阅读 170评论 0 0
  • 我的母亲是个极宽厚仁慈的人。 我上小学的时候,学校后坡下有条小河,河水清澈见底,河边有一大片斜伸入水中的石板...
    Cq0816阅读 349评论 6 3