2019-01-25百度图片spider

import scrapy
import re
from ..items import BaiduspiderItem

class BaiduSpider(scrapy.Spider):
    name = 'baidu'
    # allowed_domains = ['www.baidu.com']
    start_urls = ['http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others&pos=0']

    def parse(self, response):
        html = response.text
        urls = re.findall('"thumbURL":"(.*?)"',html)
        for index, url in enumerate(urls):
            yield scrapy.Request(url =url, meta={'index':index},callback = self.parse_img)  #callback self.方法名

    def parse_img(self,response):
        item = BaiduspiderItem()
        item['img_name'] = response.meta['index']
        item['img_content'] = response.body  #response.body 返回字节码,response.text 返回字符串
        yield item #传递给pipelines```

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

赞1赞

赞赏

手机看全文

2019-01-25百度图片spider

相关阅读更多精彩内容

友情链接更多精彩内容