利用scrapy爬取直播吧NBA首页所有图片

爬这个这个网站主要是因为喜欢看NBA啊,那么多图片,一下拿掉多爽,刚学了scrapy里面的rule用法,顺便练练手
,这次爬虫比较简单,主要是学学rule用法
先看item文件里面的代码,只需提取两个数据

Paste_Image.png

下面是pipelines代码,用来处理item的数据

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from zhiboba import settings
import os
import requests

class ZhibobaPipeline(object):
    def process_item(self, item, spider):
        path = str(item['title']).strip().replace("?",'').replace('!','').replace('"','')
        isExists = os.path.exists(os.path.join("E:\zhiboba", path))#判断这个文件在不在
        if not isExists:
            print(u'创建一个名字叫做',path,'的文件夹')
            os.makedirs(os.path.join("E:\zhiboba", path))
        #os.chdir("E:\zhiboba"+path)
        for img_url in item['img_urls']:
            img_name = img_url.split('/')[-1]
            
            
            try:
                os.chdir("E:\zhiboba\\"+path)#这是切换到这个路径
                img = requests.get(img_url)
                f= open(img_name,'ab')
                f.write(img.content)#写入文件
                f.close()
            except:
                print('图片已经存在')
                continue
        return item

下面是zhiboba文件,爬虫主程序

from scrapy.spiders import CrawlSpider,Rule,Request
from scrapy.linkextractors import LinkExtractor
from zhiboba.items import ZhibobaItem
import re
import lxml
import requests
from  lxml import  html

class myspider(CrawlSpider):
    name = 'zhiboba'
    allowed_domains =['tu.zhibo8.cc']
    start_urls = ['http://tu.zhibo8.cc/nba']

    rules = (
        Rule(LinkExtractor(allow=('/album/')),callback='parse_item',follow=False),
    )#匹配图片的url

    def parse_item(self,response):
        item = ZhibobaItem()
        item['title']= response.xpath('//*[@id="main"]/h1/text()').extract()[0]

        page = response.xpath('//*[@id="main"]/div[2]/div/text()').extract()
        max_page = re.findall(r'\d\d|\d',str(page),re.S)[0]#有些页数双数,有些单页,所以要用|表示或,
        匹配每个类别的最大的页数
        img_urls=[]
        for page in range(1,int(max_page)+1):#这里根据有图片页数构造每出一个图片链接
            link=response.url+'/'+str(page)
            data= requests.get(link)
            data.encoding='utf-8'
            selector = lxml.html.document_fromstring(data.content)
            url =selector.xpath('//div[@id="image_wrap"]/img/@src')[0]#这里的正则跟scrapy有点不同,前面要加div
            img_urls.append(url)
        item['img_urls']=img_urls
        #print(item)
        return item

这里对于rules的,上网找到了一个比较好的解释,来自卧槽哥的,自己改了改
我只说说rules这一块儿

表示所有response都会通过这个规则进行过滤匹配、匹配啥?当然是后缀为/album/的URL了、callback=’parse_item’表示将获取到的response交给parse_item函数处理(这儿要注意了、不要使用parse函数、因为CrawlSpider使用的parse来实现逻辑、如果你使用了parse函数、CrawlSpider会运行失败。)、follow=True表示跟进匹配到的URL,False则相反(顺便说一句allow的参数支持正则表达式、虽然我也用得不熟、不过超级好使)

至于我这儿的allow的参数为啥是’/album/’;大伙儿自己观察一下我们需要获取想要信息的页面的图片URL是不是都包含/album/结束的?明白了吧!

然后rules的大概运作方式是下面这样:

Paste_Image.png

以后自己也可以当笔记来看看
最后提一提,在scrapy使用requests库,深深感觉到自己的low逼,但是没办法啊,谁叫我技术差呢【捂脸】,上张效果图

Paste_Image.png
Paste_Image.png

感觉直播吧的图也是越来越没节操了

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,377评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,390评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,967评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,344评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,441评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,492评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,497评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,274评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,732评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,008评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,184评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,837评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,520评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,156评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,407评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,056评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,074评论 2 352

推荐阅读更多精彩内容