用python爬取网络图——简单便捷

经常有需求说需要爬取某某网站的某些数据，因为python的包最多的，首先尝试使用python爬~便有了本文

有了python爬网页爬图这项技能，不光能爬数据，爬图，，，嗯~

建议大家在法律范围内做爬虫，毕竟命令是领导下的，锅却要我们来背~

python基本配置

安装pip

通过pip我们可以很方便的通过包名安装其他的python包。在Python 2 >=2.7.9 or Python 3 >=3.4 中已经内置了pip。可以使用如下命令查看是否已安装pip。

python -m pip --version

# output: pip 18.0 from C:\Users\lenovo\AppData\Local\Programs\Python\Python36\lib\site-packages\pip (python 3.6)

如果没有，可以通过下载get-pip.py，并运行如下命令安装：

python get-pip.py

我们可以使用pip安装其他包，如下文需要使用的BeautifulSoup需要我们安装bs4

pip3 install bs4

爬虫常用包

requests

requests是一个处理URL资源很方便的包。

import requests

r = requests.get('https://juejin.cn')

print(r)

print(r.status_code)

print(r.text)

输出结果：

200

<!doctype html>

<head >

<title> 代码不止</title><meta data-n-head="ssr" charset="utf-8"><meta data-n-head="ssr" name="viewport" content="width=device-width, initial-scale=1, user-scalable=no, viewport-fit=cover"><meta data-n-head="ssr" name="apple-itu......

requests我们可以在请求中添加头部，以及需要验证网站的cookie信息。详细文档可查看：Requests: HTTP for Humans

几个常用的样例：

r = requests.get('https://xxx', auth=('user', 'pass'))

r = requests.post('https://xxxx', data = {'key':'value'})

payload = {'key1': 'value1', 'key2': 'value2'}

r = requests.get('https://httpbin.org/get', params=payload)

print(r.text)

BeautifulSoup

使用Beautiful Soup可以很方便的从html中提取数据。

官方中文文档地址：beautifulsoup.readthedocs.io/zh_CN/v4.4.…

简单的使用样例：

from bs4 import BeautifulSoup

soup = BeautifulSoup(open("index.html"))

soup = BeautifulSoup("<html>data</html>")

# 浏览数据的方式

soup.title

# <title>The Dormouse's story</title>

soup.title.name

# u'title'

soup.title.string

# u'The Dormouse's story'

soup.title.parent.name

# u'head'

soup.p

# <p class="title"><b>The Dormouse's story</b></p>

soup.p['class']

# u'title'

soup.a

# <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

soup.find_all('a')

# [<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>,

# <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>,

# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

soup.find(id="link3")

# <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>

open函数文件下载

open是python的内置函数，用于打开一个文件，并返回文件对象。常用参数为file与mode，完整参数如下：

open(file, mode='r', buffering=-1, encoding=None, errors=None, newline=None, closefd=True, opener=None)

"""

参数说明:

file: 必需，文件路径（相对或者绝对路径）。

mode: 可选，文件打开模式:

buffering: 设置缓冲

encoding: 一般使用utf8

errors: 报错级别

newline: 区分换行符

closefd: 传入的file参数类型

opener:

"""

开启爬图之路

爬图链接：www.easyapi.com/xxx

这个链接的特点是：

简单，只有一张图片

链接不变，但刷新后图片变化

网页HTML代码与页面展示如图：

我们取其中的重要源码查看：

<head>

...

</head>

<div>

</div>

....

</body>

刷新页面，会发现img的src路径在编号，但title不变。

因此，我们可以通过<img title="欣赏美女" .../>来获取这个标签以及src

获取html内容

使用requests获取html内容：

headers = {'referer': 'https://www.easyapi.com/xxx', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.0'}

htmltxt = requests.get(res_url, headers=headers).text

查找html中的图片链接

html = BeautifulSoup(htmltxt)

for link in html.find_all('img', {'title': '欣赏美女'}):

# print(link.get('src'))

srcLink = link.get('src')

下载图片

# 'wb'表示以二进制格式打开一个文件只用于写入。如果该文件已存在则打开文件，并从开头开始编辑，即原有内容会被删除。如果该文件不存在，创建新文件。一般用于非文本文件如图片等。

with open('./pic/' + os.path.basename(srcLink), 'wb') as file:

file.write(requests.get(srcLink).content)

完整代码

网页图片是随机的，因此我们循环请求1000次，获取并下载图片。完整代码：

import requests

from bs4 import BeautifulSoup

import os

index = 0

headers = {'referer': 'https://www.easyapi.com/xxx/service', 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:47.0) Gecko/20100101 Firefox/47.0'}

# 保存图片

def save_jpg(res_url):

global index

html = BeautifulSoup(requests.get(res_url, headers=headers).text)

for link in html.find_all('img', {'title': '欣赏美女'}):

print('./pic/' + os.path.basename(link.get('src')))

with open('./pic/' + os.path.basename(link.get('src')), 'wb') as jpg:

jpg.write(requests.get(link.get('src')).content)

print("正在抓取第"+str(index)+"条数据")

index += 1

if __name__ == '__main__':

url = 'https://www.easyapi.com/xxx/service'

# 其实不需要循环到1000，通过打印链接可以发现，图片名称地址为 xxx/girl(number).jpg，优化方向可以舍弃获取html再获取图片链接

for i in range(0, 1000):

save_jpg(url)

运行效果：

有了这项技能，你不光能爬图片~~

如果觉得文章对你有帮助,麻烦点赞、评论、收藏你的支持是我最大的动力！！！

最后小编在学习过程中整理了一些学习资料，可以分享给做软件测试工程师的朋友们，相互交流学习，需要的可以加入我的学习交流群323432957 或加微dingyu-002即可免费获取Python自动化测开及Java自动化测开学习资料（里面有功能测试、性能测试、python自动化、java自动化、测试开发、接口测试、APP测试等多个知识点的架构资料）

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,039评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,426评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,417评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,868评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,892评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,692评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,416评论 3赞 419
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,326评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,782评论 1赞 316
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,957评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,102评论 1赞 350
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,790评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,442评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,996评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,113评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,332评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,044评论 2赞 355

用python爬取网络图——简单便捷

推荐阅读更多精彩内容