python 爬虫 进击的巨人

import urllib2
import os
import re

chapter = 1
while(chapter <= 69):

    dir = 'G:\\python data\\' + str(chapter)
    os.mkdir(dir)
    os.chdir(dir)
    URL = 'http://jj.xxdm.org/manhua/jjdjrmh/' + str(chapter) + '.shtml'
    response = urllib2.urlopen(URL).read()
    
    Urls = re.findall(r'/uploads/mh/jj/\d{3,5}/\d{2,4}\.\w{3}', response)
    page = 1
    for url in Urls:
        pic = urllib2.urlopen('http://pic.xxdm.com/' + url).read()
        print url
        with open(str(page) + '.jpg', 'wb') as f:
            f.write(pic)
        page = page + 1
    chapter = chapter + 1

用不来scrapy。最后没有用这个框架,反而简单很多。
但是很慢,真的特别慢。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 175,856评论 25 709
  • 序言第1章 Scrapy介绍第2章 理解HTML和XPath第3章 爬虫基础第4章 从Scrapy到移动应用第5章...
    SeanCheney阅读 15,224评论 13 61
  • 1.概述 分组,所谓的分组就是将一个“数据集”划分成若干个“小区域”,然后针对若干个“小区域”进行数据处理。 2....
    禾线子阅读 3,169评论 0 0
  • 记得一天的上午,爸爸妈妈去农田里干活去了,我们几个小孩在家里玩,玩泥巴、捉迷藏、突然浓烟滚滚,躲在鸡窝里的我呛了出...
    bd751cbf97c6阅读 2,540评论 0 1
  • 今天心情不好,前同事打趣儿说要不喝两杯。岂料她说的是茶,我说的是酒。 去了梅林一家人气很旺的烤肉店,点了三荤一素,...
    WENDANWU阅读 1,664评论 0 0