import scrapy
import re
from ..items import BaiduspiderItem
class BaiduSpider(scrapy.Spider):
name = 'baidu'
# allowed_domains = ['www.baidu.com']
start_urls = ['http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&word=%CD%BC%C6%AC&fr=ala&ala=1&alatpl=others&pos=0']
def parse(self, response):
html = response.text
urls = re.findall('"thumbURL":"(.*?)"',html)
for index, url in enumerate(urls):
yield scrapy.Request(url =url, meta={'index':index},callback = self.parse_img) #callback self.方法名
def parse_img(self,response):
item = BaiduspiderItem()
item['img_name'] = response.meta['index']
item['img_content'] = response.body #response.body 返回字节码,response.text 返回字符串
yield item #传递给pipelines```
2019-01-25百度图片spider
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 以前推荐过很多不限速的百度网盘下载工具,这里又要推荐一款,是目前(2019年01月22日)用过的最有效的版本,可以...