python抓取图片爬虫

#!/usr/bin/env python

# -*- encoding:utf-8 -*-

# author :insun

#http://yxmhero1989.blog.163.com/blog/static/112157956201311994027168/

importurllib, urllib2, re, sys, os

reload(sys)

#url = 'http://huaban.com/favorite/'

if(os.path.exists('beauty')==False):

os.mkdir('beauty')

defget_huaban_beauty():

pin_id=48145457

limit=20#他默认允许的limit为100

whilepin_id !=None:

url='http://huaban.com/favorite/beauty/?max='+str(pin_id)+'&limit='+str(limit)+'&wfl=1'

try:

i_headers={"User-Agent": "Mozilla/5.0(Windows; U; Windows NT5.1; zh-CN; rv:1.9.1)\

Gecko/20090624Firefox/3.5", \

"Referer":'http://baidu.com/'}

req=urllib2.Request(url, headers=i_headers)

html=urllib2.urlopen(req).read()

reg=re.compile('"pin_id":(.*?),.+?"file":{"farm":"farm1", "bucket":"hbimg",.+?"key":"(.*?)",.+?"type":"image/(.*?)"', re.S)

groups=re.findall(reg, html)

printstr(pin_id)+"Start to catch "+str(len(groups))+" photos"

forattingroups:

pin_id=att[0]

att_url=att[1]+'_fw554'

img_type=att[2]

img_url='http://img.hb.aicdn.com/'+att_url

if(urllib.urlretrieve(img_url,'beauty/'+att_url+'.'+img_type)):

printimg_url+'.'+img_type+' download success!'

else:

printimg_url+'.'+img_type+' save failed'

#print pin_id

except:

print'error occurs'

get_huaban_beauty()

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,314评论 19 139
  • # 一度蜜v3.0协议 --- # 交互协议 [TOC] ## 协议说明 ### 请求参数 下表列出了v3.0版协...
    c5e350bc5b40阅读 3,863评论 0 0
  • 刚到宏镇的林沫,跟爸妈林城韩菊一起住在林城朋友王光家。 王光出于朋友情谊不收林城的房租费和水电费,但王光的妻子丁花...
    四点半的洛杉矶阅读 2,885评论 0 2
  • "长到这么大,我说不出来我最爱的一部电影,说不出来我最爱的一首歌,说不出来我最爱的一个人。时常觉得人生其实没那么有...
    jump酒鬼阅读 3,885评论 0 0
  • 寻溪聆韵穿林幽,细雨生烟未添愁。 花香暗来醉仙客,误入天阕穹宇楼。 路遇隐龙湖涟漪。方觉此山多雨由。
    房谋杜断阅读 2,895评论 1 4