title: stocksnap 一个不错的图片网站的图片抓取--selenium 右键保存和直接写入2个模式【python】
date: 2016-09-18 10:59:28
tags:
参考:原文1#
参考:原文2#
1、原文1采用了scrapy方法,本文改编用selenium方法,并参考原文2首次采用模拟右键来保存图片。
2、网站分析:
首先发现鼠标拖动到图片底部区域,主页又不断加载新的图片,可判断是异步的。另单独查看2个图的xpath,发现总体格式一致,编号部分有差异:
/html/body/div[4]/div[3]/div[2]/div/div[1]/a/img
/html/body/div[4]/div[3]/div[2]/div/div[11]/a/img
这样我们就得到了在firefox下统一的xpath为,注意是删除div[i]部分,留下2个斜杠:
/html/body/div[4]/div[3]/div[2]/div//a/img
此时,可能觉得为啥要删除,而不是用正则式.*代替?测试那样的结果是Nan,也就是说xpath的格式和re格式不能混搭。
而每个jpg地址在src属性中,所以如果想查阅批量的图片地址,则:
/html/body/div[4]/div[3]/div[2]/div//a/img/@src
3、既然这么爽的得到了图片地址,剩下就是批量下载保存了:
这一次,先测试了用firefox模拟人工右键保存的方法,代码如下,保存那块还没整明白,也就是自动到出现图片保存的界面,根本原因是selenium无法操作操作系统级的对话框:
索性快速人工点保存,30个图的保存位置都是重复的,依次得到30个图:
4、随机打开一个图,如下,可见测试ok:
5、代码:
# -*- coding: utf-8 -*-
# python 3.5.2
# Author:vansnowpea
# stocksnap 一个不错的图片网站的图片,右键保存抓取
from selenium import webdriver
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.common.keys import Keys
print('Please wait...Firefox loading...')
print('---------------------------------')
url = "https://stocksnap.io/"
# 用浏览器实现访问
driver = webdriver.Firefox()
driver.maximize_window()
driver.get(url)
# 得到总的jpgs的路径集合
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"
# set profile
fp = webdriver.FirefoxProfile()
fp.set_preference('browser.download.folderList', 2)
fp.set_preference('browser.download.manager.showWhenStarting', False)
fp.set_preference('browser.download.dir', './yourfolder/')
fp.set_preference('browser.helperApps.neverAsk.saveToDisk', 'image/jpeg')
# 保存图片,人工批量点保存,selenium无法操作操作系统级的对话框
for element in driver.find_elements_by_xpath(xpath):
img_url = element.get_attribute('src')
img_desc = element.get_attribute('data-desc')
action = ActionChains(driver).move_to_element(element)
action.context_click(element)
action.send_keys(Keys.ARROW_DOWN)
action.send_keys('v')
action.perform()
print('Well done! all pictures downloaded.')
print('---------------------------------')
# driver.close()
6、如果图片数量少,人工保存下也无妨,但数量大肯定不行,所以还是用常规的自动写入数据保存的方式。另外此网站是通过ajax异步加载,当鼠标放到首页30个图的下方,也就是浏览器底部区域,他又会自动加载新的图片出来。而通过新的第一层代码的模拟鼠标下移,可以得到更多的图片。千万要注意的是,在python 3中,对数dict的关键词查找是in,比如:if n in previous:而在python 2 中是has_key,比如:if previous.has_key(n):对应代码为:
# python 3.5.2
from selenium import webdriver
import time
import urllib
# 爬取页面地址
url = "https://stocksnap.io/"
# 目标元素的xpath
xpath = "/html/body/div[4]/div[3]/div[2]/div//a/img"
# 启动Firefox浏览器
driver = webdriver.Firefox()
# 最大化窗口,因为每一次爬取只能看到视窗内的图片
driver.maximize_window()
# 记录下载过的图片地址,避免重复下载
img_url_dic = {}
# 浏览器打开爬取页面
driver.get(url)
# 模拟滚动窗口以浏览下载更多图片
pos = 0
m = 0 # 图片编号
for i in range(10):
pos += i*500 # 每次下滚500
js = "document.documentElement.scrollTop=%d" % pos
driver.execute_script(js)
time.sleep(1)
for element in driver.find_elements_by_xpath(xpath):
img_url = element.get_attribute('src')
# 保存图片到指定路径
if img_url != None and not img_url in img_url_dic:
img_url_dic[img_url] = ''
m += 1
ext = img_url.split('.')[-1]
filename = str(m) + '.' + ext
#保存图片数据
data = urllib.request.urlopen(img_url).read()
f = open('./van/' + filename, 'wb')
f.write(data)
f.close()
driver.close()
7、结果展示:相对第一个方法,获取了更多的图片: