一个爬虫玩具,抓去全景网搜索图片

目的:全景网通过关键字下载所有搜索获得图片

前期分析,这个通过开发者工具查看各个链接之间的关系发现高清图片下载逻辑关系如下

url1 = "http://www.quanjing.com/downcomp.aspx?pic_id=488-8193&Catalogid=chineseview069"#需要pic_idcatalogid

url2 = "http://search.quanjing.com/search?key=%E7%94%B0%E5%9B%AD%E9%A3%8E%E5%85%89&pageSize=200&pageNum=1&imageType=2&sortType=1&callback=searchresult&_=1513818809900"#key=搜索内容--response中有pic_id和catalogid

不废话直接上代码了:

#coding=utf-8

import requests

import json

import re

import sys

import random

import os

import time

import multiprocessing

from multiprocessing import Pool

from time import sleep

import copy_reg

import types



def _pickle_method(m):

  if m.im_self is None:

      return getattr, (m.im_class, m.im_func.func_name)

  else:

      return getattr, (m.im_self, m.im_func.func_name)


copy_reg.pickle(types.MethodType, _pickle_method)#使用copy_reg将MethodType注册为可序列化的方法


reload(sys)

sys.setdefaultencoding('utf-8')#初始化编码防止乱码



class Picture_spider(object):


  def __init__(self, search_keyword):

      self. search_keyword = search_keyword


  def make_saving_path(self):#创建保存文件

      key = self.search_keyword.encode('gbk')

      directory_path = 'F:\\test_auto\\spider\\pictures\\%s'%key

      os.mkdir(directory_path)

      return directory_path


  def get_url_source_by_keyword(self):#通过关键字取得下载中间结果字典(包含pic_id和catalogid的字典)

      keyword = self.search_keyword

      dict_middle_result = {}

      url = "http://search.quanjing.com/search?key=%s&pageSize=200&pageNum=1&imageType=2&sortType=1&callback=searchresult&_=1513818809900"%keyword

      response = requests.get(url)

      content = response.content

      result_1 = re.findall(r'\"pagecount\".*?\d+',content,re.S)

      page_number = str(result_1[0].split(":")[-1])#总页数对应pageNum

      for page_num in range(1, int(page_number)+1):#总页数

          urls = "http://search.quanjing.com/search?key=%s&pageSize=200&pageNum=%s&imageType=2&sortType=1&callback=searchresult&_=1513818809900"%(keyword, page_num)

          try:

              response = requests.get(urls)

              content = response.content

              result_2 = re.findall(r'\"imglist\"\:(.*)',content,re.S)[0]

              result_3 = re.findall(r'\{\"pic.*\"\}',result_2,re.S)[0]#对信息使用正则表达式进行筛选

              result_4 = result_3.split(',{')

              for j in range(0,len(result_4)):

                  if j==0:

                      dict = json.loads(result_4[j])

                      dict_middle_result[dict['pic_id']] = dict['catalogid']

                  else:

                      strlog ='{'+result_4[j]

                      dict = json.loads(strlog)

                      dict_middle_result[dict['pic_id']] = dict['catalogid']#通过关键字获得pic_id和catalogid等信息

              return dict_middle_result

          except:

              print "页面%s获取图片id失败"%page_num

      return dict_middle_result#中间结果字典


  def get_urls_by_middle_result(self):#后期发现全景网服务器对每个下载请求会生成一个seiid,因此有了这一步处理中间过程取得sei

      url_pool = []

      middle_result_dict = self.get_url_source_by_keyword()

      for key in middle_result_dict:

          pic_id = key

          catalogid = middle_result_dict[key]

          url = "http://www.quanjing.com/downcomp.aspx?pic_id=%s&Catalogid=%s"%(pic_id,catalogid)

          response = requests.get(url)

          content = response.content

          final_url_1 = re.findall(r'<script.*</script>',content,re.S)[0]

          final_url_2 = re.findall(r'document.location.href =(.*)\;<{1}',final_url_1,re.S)

          final_url_3 = final_url_2[0]#正则表达式处理获得信息

          final_url = re.findall(r'\'(.*)\'',final_url_3,re.S)[0]#取得最终下载URL

          url_pool.append(final_url)

      return url_pool#最终下载URL组成URL池


  def get_picture_by_url(self, url):

      fold_path = 'F:\\test_auto\\spider\\pictures'#存放目录,因为无法多进程方法只能提供一个可迭代对象,所以无法自主创建目录

      key = self.search_keyword.encode('gbk')

      picture_name = key+str(random.randint(10000, 99999))+'.jpg'

      picture_path = '%s\\%s'%(fold_path, picture_name)

      if os.path.exists(picture_path):

          picture_name = key+str(random.randint(1000,9999))+'.jpg'

          picture_path = '%s\\%s'%(fold_path, picture_name)

      response = requests.get(url)

      content = response.content

      with open(picture_path, 'wb') as fi:

          fi.write(content)

          fi.close()

      picture_size = os.path.getsize(picture_path)

      if picture_size < 7000:

          os.remove(picture_path)

          fail_url = url

          dict = {}

          dict[fail_url] = 'fail'

          return dict

      else:

          print "%s下载完成..."%picture_name

          success_url = url

          dict = {}

          dict[success_url] = 'success'

          return dict


def main():

  keyword = raw_input('请输入需要搜索下载的图片关键字:')

  spider = Picture_spider(keyword)

  #directory_path = spider.make_saving_path()

  url_pool = spider.get_urls_by_middle_result()

  picture_num = len(url_pool)

  print "根据关键字一共搜索到%s,现在开始下载..."%picture_num


  while True:#因为多进程下载存在文件破损或者服务器因为访问过于频繁而出错,所以无限循环直到全部下载完成

      if len(url_pool) == 0:

          break

      else:

          p = multiprocessing.Pool(processes=4)#建立4进程

          res = p.map(spider.get_picture_by_url, url_pool)#进程执行

          p.close()

          p.join()

          url_pool = []

          for item in res:

              for key in item:

                  if item[key] == 'fail':

                      url_pool.append(key)#损坏文件重新加入URL池重新下载



if __name__ == '__main__':

  main()



写的不好,欢迎斧正……


图片发自简书App
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,406评论 6 503
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,732评论 3 393
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,711评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,380评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,432评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,301评论 1 301
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,145评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,008评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,443评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,649评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,795评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,501评论 5 345
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,119评论 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,731评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,865评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,899评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,724评论 2 354

推荐阅读更多精彩内容