python爬虫-XPath实例——批量下载高清壁纸

一、前言

网络爬虫的一般步骤：

1.获取网页

2.提取网页信息

3.保存网页信息

要用到的Python库：

requests库
os库
lxml中的etree(xpath)

二、要求

1.爬取目标网站上 “动漫” 类别下所有的壁纸。

2.壁纸必须保存到脚本运行目录下的的 IMAGES文件夹内。(文件夹由脚本自动创建没有就创建否则不创建)

3.保存的图片必须以对应标题名和分辨率来命名，如：秋田君的小漫画 - 1920x1200.jpg。

4.图片分辨率应该是可选分辨率中最高的。

5.要有提示信息，格式：正在下载 (下载数量)：(图片名字)。

6.要有错误处理并给出相应提示，如：图片下载失败、网络超时的处理等。

三、正文

爬取目标http://desk.zol.com.cn/dongman/

image.png

以上就是将要爬取的部分壁纸。

1.思路

image

第一步：分析网页，写出xpath路径

分析网页是应首先按F12进入开发者模式，选择element选项卡，使用元素选择器，如图：

image

由于我们要爬取列表所有壁纸，所以我们要获取<li class="photo-list-padding">标签下的所有<a>标签，因此，xpath路径为：


#图片列表地址

//li[@class="photo-list-padding"]//a/@href

image

还需要把’下一页‘的xpath路径提取出来，为：


#下一页的地址
//a[@id="pageNext"]/@href

image

需要提取出图片的名字，xpath路径为：


#图片名称
//a[@id="titleName"]/text()

image

这时候，由于既需要提取出分辨率，以及其网页，故而需要两个xpath路径：

#下载图片的路径
//dd[@id="tagfbl"]//a[1]/@href
#最大分辨率1920*1200
//dd[@id="tagfbl"]//a[1]/text()

第二步：设置请求头防止访问受限

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
}

第三步：利用requests库和lxml获取并解析网页

def get_dom(url):
    r = requests.get(url)
    dom = etree.HTML(r.text)
    return dom

第四步：下载并保存获取的图片

def download_image(url):
    dom = get_dom(url)
    download_url = dom.xpath('//img[contains(@src, "jpg")]/@src')[0]
    r_2 = requests.get(download_url)
    return r_2.content
def save_image(image_name, content, filepath='IMAGES/'):
    with open(filepath+image_name, 'wb') as f:
        f.write(content)

第五步：错误提示处理

下面给出完整代码：

import requests
import os
from lxml import etree

headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"}

def get_text(url):
    r = requests.get(url, headers=headers)
    r.encoding = r.apparent_encoding
    dom = etree.HTML(r.text)
    return dom


def get_imgage(url, name, px):
    r = requests.get(url, headers=headers)
    if (r.status_code != 200):
        print("图片下载失败")
        return
    r.encoding = r.apparent_encoding
    f = open(f'{name}-{px}.jpg', 'wb')
    f.write(r.content)


def create_file():
    path = os.getcwd() + "\image"
    if not os.path.exists(path):
        os.makedirs(path)
    os.chdir(path)


def get_name_href(dom):
    name = dom.xpath('//li[@class="photo-list-padding"]//em//text()')
    href = dom.xpath('//li[@class="photo-list-padding"]//@href')
    return name, href


def getImgHref_Px(href):
    dom = get_text(href)
    try:
        px = dom.xpath('//dd[@id="tagfbl"]//a//@id')[0]
        imgage_url = dom.xpath('//dd[@id="tagfbl"]//a[@target="_blank"]//@href')[0]
        dom_1 = get_text(host + imgage_url)
        imgage_href = dom_1.xpath('//img//@src')[0]
        return imgage_href, px
    except:
        imgage_href = dom.xpath('//div[@id="mouscroll"]//img//@src')[0]
        return imgage_href, "960x600"


host = "http://desk.zol.com.cn"
target = "http://desk.zol.com.cn/dongman/"
cnt = 0
create_file() 

for x in range(1, 42):
    dom = get_text("http://desk.zol.com.cn/dongman/" + str(x) + ".html")
    name, href = get_name_href(dom)
    for i in range(0, len(href)):
        cnt = cnt + 1
        print("正在下载" + str(cnt) + ":" + name[i])
        imgHref, px = getImgHref_Px(host + href[i])
        get_imgage(imgHref, name[i], px)

以下是运行结果：

image.png

最后编辑于：2018.11.08 21:35:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,185评论 6赞 503
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,652评论 3赞 393
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 163,524评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,339评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,387评论 6赞 391
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,287评论 1赞 301
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,130评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,985评论 0赞 275
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,420评论 1赞 313
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,617评论 3赞 334
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,779评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,477评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,088评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,716评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,857评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,876评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,700评论 2赞 354

python爬虫-XPath实例——批量下载高清壁纸

一、前言

网络爬虫的一般步骤：

要用到的Python库：

二、要求

三、正文

1.思路

第一步：分析网页，写出xpath路径

第二步：设置请求头防止访问受限

第三步：利用requests库和lxml获取并解析网页

第四步：下载并保存获取的图片

第五步：错误提示处理

推荐阅读更多精彩内容