今天跟大家分享一下,利用python抓取网络图片的步骤,整个教程简单易学
三分钟学会,如囊中取物。
工具:PyCharm
首先,根据给定的网址获取网页源代码
其次,利用正则表达式把源代码中的图片地址过滤出来
最后,根据过滤出来的图片地址下载网络图片
今天我们用(如云美女图片站:http://lvxing666.com) 作为事例,教大家爬取美女图片:
1:打开:http://lvxing666.com
2:打开网页源代码,找到图片的正则规则:
3:开始爬取
```
#-*-coding:utf-8-*-
# 正则importre
# 网络交互importrequests
# 操作系统功能importos
# 定义一个类classSpider:
#定义一个函数
defsavePageInfo(self, _url, _position, _regX):
# 要爬的网址
url = _url
# 本地地址
position = _position
# 获取网页源代码
html = requests.get(url).text
# 正则
regX = _regX
pic_url = re.findall(regX,html,re.S)
i =0foreachinpic_url:
pic = requests.get( each )printurl + each
# 如果文件夹不存在,则创建一个文件夹
ifnotos.path.isdir(position):
os.makedirs(position)
fp = open( position+str(i)+'.jpg','wb')
fp.write(pic.content)# print position+eachfp.close()
i+=1#
===================网页爬取图片========================
position_end =''# 要爬的网址url ='http://www.umei.cc/'+ position_end# 本地地址position ='/Users/edison/Desktop/1/'+ position_end# 正则regX ='_blank\'>
```