#!/usr/bin/env python
#-*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
# 加上请求头,模拟浏览器访问,防止被发现是爬虫
headers = {
'User-Agent':
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36'
}
def download(url):
r = requests.get(url)
if r.status_code != 200:
return
#http://img.ui.cn/data/file/2/5/2/909252.jpg
# split,获取最后一个/和.之间的数字作为文件名
filename = url.split("/")[-1].split(".")[-2]
target = "./{}.jpg".format(filename)
with open(target, "wb") as fs:
fs.write(r.content)
print("%s => %s" % (url, target))
def main():
# 获取1 ~ 10页的图片
for page in range(1, 10):
# 找规律,发现只有替换请求链接的page参数即可进入相应页面
url = "http://www.ui.cn/?p={}#project".format(page)
r = requests.get(url,headers=headers)
# 检查是否正常访问,异常访问返回的状态码不是200,异常就跳过
if r.status_code != 200:
continue
# 提取页面的图片,得到地址,然后下载
soup = BeautifulSoup(r.text, "html.parser")
imgs = soup.select('ul > li > div.cover.pos > a > img')
for img in imgs:
src = img.get("data-original")
download(src)
if __name__ == '__main__':
main()
从网站爬取图片下载到本地
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- ···import requestsimport osurl = "http://g.hiphotos.baidu...
- 最近由于需要对即将上线的APP进行内测,需要上传车源图片进行测试,这个时候我就想到了二手车之家的大量车源图片,可爬...