python爬虫

目前该代码只是实现了当前页面所有出现的url中的图片爬去,并没有做第几页的爬取。但是天狗网页实在是太慢了。。建议大家换个网页 爬取吧 !话不多说直接看代码

# -*- coding:utf-8 -*-

import urllib,re
import os

def ID():
    #这里打开天狗网页源代码
    html = urllib.urlopen("http://tnfs.tngou.net/")
    html = html.read()
    #利用正则来匹配到想要的内容并且返回
    req = re.compile(r'href="http://www.tngou.net/tnfs/show/(.*?)"')
    urllist = re.findall(req,html)
    return urllist

def get_img(id):
    #组合url
    url = 'http://www.tngou.net/tnfs/show/'+id
    html = urllib.urlopen(url).read()
    #匹配
    img = re.compile(r'src="(.*?).jpg"')
    img_url = re.findall(img,html)
    
    #文件判断
    filename = (r'G:\\xxoo\\%s' %id)
    if os.path.exists(filename):
        message = 'OK, the "%s" file exists.'
    else:
        os.mkdir(r'G:\\xxoo\\%s' %id)
    print message % filename
    
    x = 0
    for i in img_url:
        print i
        x +=1
        try:
            urllib.urlretrieve(i+'.jpg','G:\\xxoo\\%s\\%s.jpg' %(id,x))
        except Exception,e:
            print e



for id in ID():
    print id
    print type(id)
    get_img(id)

运行结果:

Paste_Image.png
Paste_Image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 在之前一篇抓取漫画图片的文章里,通过实现一个简单的Python程序,遍历所有漫画的url,对请求所返回的html源...
    msq3阅读 14,398评论 14 88
  • 从爬虫必要的几个基本需求来讲: 1.抓取 py的urllib不一定去用,但是要学,如果还没用过的话。 比较好的替代...
    Python程序媛阅读 3,552评论 0 7
  • 入门”是良好的动机,但是可能作用缓慢。如果你手里或者脑子里有一个项目,那么实践起来你会被目标驱动,而不会像学习模块...
    Python程序媛阅读 2,990评论 0 4
  • 张德芬空间·小时空福利课"7天绽放女性魅力课"昨晚结束啦,感恩周老师昨晚群直播答疑,我们整理了答疑音频上传,方便大...
    飞言米语阅读 1,580评论 0 0
  • 我藏不住秘密,也藏不住忧伤, 正如我藏不住爱你的喜悦, 藏不住分离时的彷徨。我就是这样坦然,你舍得伤,就伤。 如果...
    壹封信阅读 5,447评论 1 10

友情链接更多精彩内容