Python爬虫学习100练002

爬取80s网站2018年电视剧作品主图片

-- coding:utf-8 --

2018年3月25日

下载图片request.urlretrieve(jpg_link, path)

from urllib import request
import re

Python 2.7.9 之后引入了一个新特性当你urllib.urlopen一个 https 的时候会验证一次 SSL 证书

导入证书库

import ssl

禁掉这个证书的要求

context = ssl._create_unverified_context()
picture=[["网址","标题"]]

获取图片地址

def gettupian():
response=request.urlopen(url,context=context)
html=response.read().decode("utf-8")
re_tupian=re.compile(r'<li> <a href=.? title="(.?)">.?<img id.?src="(.*?)" src',re.S)
list=re_tupian.findall(html)
for title,url_tp in list:
url_tp="http:"+url_tp
picture.append([url_tp,title])

下载图片到本地

def xz():
for i in range(1,len(picture)):
request.urlretrieve(picture[i][0],str(i)+".jpg")
for j in range(1,5):
url="https://www.80s.tw/ju/list/---2018-0-g-p%s"%j
gettupian()
print("正在下载第%s页"%j)
xz()
print("下载完毕")

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容