header构造

在进行接口测试等工作中,很多页面访问需要权限,这些权限管理字段一般存储于header里面,已cookie、token等形式存在,因此经常需要在url1中发送请求获得这些许可证,在后面的接口测试中利用许可证构造header继续进行请求以下是一个举例,是构造header在爬虫中的应用。

coding=utf-8

http://699pic.com/download/getDownloadUrl----获取下载URL地址的接口接收pid:500472407

返回包含图片链接URL=http://down.699pic.com/photo/50047/2407.jpg?_upt=63305cd11514965673&_upd=500472407.jpg

upd分解成两块填入 _upt为实时生成,具有时间使用限制 #图片id

如何获得_upd?

http://699pic.com/sousuo-61847-0-1-0-0-0.html第一页#keyword 如何转化为61847---页面代码中可以找到

http://699pic.com/sousuo-61847-0-2-0-0-0.html第二页

http://699pic.com/sousuo-61847-0-3-0-0-0.html第三页

多页面获取只要改变 这个数字,数字在html代码中可寻找到

_upd在网页元素中html代码中可以找到拼接即可

问题转化为keyword---五位数字的对应关系如何生成的

import requests
import time
import multiprocessing#多进程
from bs4 import BeautifulSoup#用于处理html文本,可以树状解析,方便查找和拆分
import sys
import io
from urllib import request#用于模拟登陆请求,携带登陆cookie信息进行访问
import json
import os
import random

sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')#改变标准输出的默认编码

class SpiderForPicture(object):
author = 'Blokks'

def __init__(self, keyword):
    self.keyword = keyword

def saving_folder_making(self):
    folder_path = 'F:\\test_auto\\spider\\pictures\\' + self.keyword
    if not os.path.exists(folder_path):
        os.mkdir(folder_path)
        print('创建名字为%s的目录存放图片' % self.keyword)
    return folder_path

def get_page_count(self):
    try:
        keyword = self.keyword
        url = 'http://699pic.com/tupian/' + keyword + '.html'
        html = requests.get(url)
        content = (html.content).decode('utf-8')
        re_1 = BeautifulSoup(content, "lxml")
        re_2 = re_1.find_all(name='div', attrs={'class': 'pager-linkPage'})
        re_3 = re_2[0].find_all(name='a')
        list_ = []
        list_result = []
        result_dict = {}
        for item in re_3:
            ls = (item.get('href')).split('-')
            list_.append(ls)
            list_result.append(int(ls[3]))
        page_count = str(max(list_result))
        key_number = str(list_[0][1])
        result_dict[key_number] = page_count
        return result_dict#取得对应数字kw和页码数
    except:
        print('搜索关键字未找到图片...')
        exit(1)

def get_pic_id(self):
    pic_id_list = []
    kw_dict = self.get_page_count()
    list_ = []
    for i in kw_dict:
        list_.append(i)
        list_.append(kw_dict[i])
    page_count = list_[1]
    print('根据关键字%s一共搜索到图片%s张' % (self.keyword, page_count))
    key_number = list_[0]
    for num in range(1, int(page_count)+1):
        url = 'http://699pic.com/sousuo-'+key_number+'-0-'+str(num)+'-0-0-0.html'
        html = requests.get(url)
        content = (html.content).decode('utf-8')
        re_1 = BeautifulSoup(content, "lxml")
        re_2 = re_1.find_all(name='div', attrs={'class': 'list'})
        for item in re_2:
            pic_id_list.append(item.get('data-id'))
    for i in pic_id_list:
        if len(str(i)) < 9:
            pic_id_list.remove(i)
    return pic_id_list

def get_download_url(self):
    pic_id_list = self.get_pic_id()
    url_pool = []
    for pic_id in pic_id_list:
        url = 'http://699pic.com/download/getDownloadUrl?pid=' + pic_id
        cookie_str = r'2017endalert=1; uniqid=5a4c7bd11a363; bargain_popup=1; uv_cookie=c610bdc8d6965b2e7abec5d93' \
                     r'd07ad59; is_click_activity=1; from_data=YTo1OntzOjQ6Imhvc3QiO3M6MTA6IjY5OXBpYy5jb20iO3M6Mzoi' \
                     r'c2VtIjtiOjA7czoxMDoic291cmNlZnJvbSI7aTowO3M6NDoid29yZCI7TjtzOjM6ImtpZCI7aTowO30%3D; isVip=0; ' \
                     r'isPay=0; is_qy_vip=1; is_join_2017_end_18454014=0; isSearch=0; s_token=03e987b8c9b7912d89e77b' \
                     r'b7fd9b62e8; PHPSESSID=kt1v9k8sid51kg0ej6e127cvkvgmpc7q; Qs_lvt_135734=1513923395%2C1513923542' \
                     r'%2C1514961873%2C1515026629%2C1515031146; mediav=%7B%22eid%22%3A%22278616%22%2C%22ep%22%3A' \
                     r'%22%22%2C%22vid%22%3A%22%5EySs)9Ku%25D%3A*qX%24(Pe%3FD%22%2C%22ctn%22%3A%22%22%7D; ' \
                     r'Hm_lvt_1154154465e0978ab181e2fd9a9b9057=1515026630,1515026702,1515031028,1515031147; ' \
                     r'Hm_lvt_ddcd8445645e86f06e172516cac60b6a=1515026629,1515026702,1515031028,1515031147; ' \
                     r'recentlysearch=YTo0OntpOjA7YToyOntzOjI6Imt3IjtzOjc6ImRpYW5uYW8iO3M6NjoicGlueWluIjtzOjY6IjMx' \
                     r'MTExMCI7fWk6MTthOjI6e3M6Mjoia3ciO3M6Njoi55S16ISRIjtzOjY6InBpbnlpbiI7czo3OiJkaWFubmFvIjt9aTo' \
                     r'yO2E6Mjp7czoyOiJrdyI7czoxMjoi5pm66IO95a625bGFIjtzOjY6InBpbnlpbiI7czoxMjoiemhpbmVuZ2ppYWp1Ij' \
                     r't9aTozO2E6Mjp7czoyOiJrdyI7czo2OiLlpKfmtbciO3M6NjoicGlueWluIjtzOjU6ImRhaGFpIjt9fQ%3D%3D; ' \
                     r'search_Kw=%22diannao%22; is_join_2017_end_533435=0; Qs_pv_135734=144824772440290620%2C38906' \
                     r'64247893633500%2C3737559667568741000%2C2243149228815513300%2C1985644855545767200; ' \
                     r'Hm_lpvt_1154154465e0978ab181e2fd9a9b9057=1515034556; Hm_lpvt_ddcd8445645e86f06e172516cac60' \
                     r'b6a=1515034556; redirect=http%3A%2F%2F699pic.com%2Ftupian-500472175.html; session_data=YTo1' \
                     r'OntzOjM6InVpZCI7czo2OiI1MzM0MzUiO3M6NToidG9rZW4iO3M6MzI6ImZkZDIyZWY5NDJlMjY3NjViYTdhMGE2NmY' \
                     r'4NzVmMTE3IjtzOjM6InV1dCI7czozMjoiMWM0Y2E4ZDZmMDRhYTdhYmJiNTNkNTkwZmI4MGJiMWMiO3M6NDoiZGF0YS' \
                     r'I7YToxOntzOjg6InVzZXJuYW1lIjtzOjEyOiLku5nlpbPlprnlprkiO31zOjY6ImV4dGltZSI7aToxNTE1NjM5MzgzO' \
                     r'30%3D; uid=533435; username=%E4%BB%99%E5%A5%B3%E5%A6%B9%E5%A6%B9; head_pic=http%3A%2F%2' \
                     r'Fq.qlogo.cn%2Fqqapp%2F101268598%2FD2C2DF0668D1C9B957ADD345B9B7A420%2F40; login_user=1'
        req = request.Request(url)
        req.add_header('Cookie', cookie_str)
        req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36')
        resp = request.urlopen(req)
        result_ = resp.read().decode('utf-8')
        result_dict = json.loads(result_)
        if not 'url' in result_dict:
            print('cookies失败o(╥﹏╥)o')
            exit(1)
        download_url = result_dict['url']
        url_pool.append(download_url)
    return url_pool

def download_picture(self, url):
    file_name = self.keyword + str(random.randint(100000, 999999)) + '.jpg'
    folder_path = self.saving_folder_making()
    file_path = folder_path + '\\' + file_name
    resp = requests.get(url)
    content = resp.content
    with open(file_path, 'wb') as f:
        f.write(content)

def main():
start_time = time.time()
keyword = input('请输入需要搜索的关键字(拼音):')
spider = SpiderForPicture(keyword)
middle_time = time.time()
time_cost = middle_time - start_time
url_pool = spider.get_download_url()
print('下载地址解析完毕---用时%s---现在开始下载....' % time_cost)
p = multiprocessing.Pool(processes=4)
p.map(spider.download_picture, url_pool)
p.close()
p.join()
end_time = time.time()
time_used = end_time - start_time
print('全部下载完毕,用时%s' % time_used)

if name == 'main':
main()

可以看到上面代码中cookie贼长,在本例子中使用add_header进行请求头构造完成后面的请求需要。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,590评论 18 139
  • 目录Cookie机制什么是CookieCookie的不可跨域名性Unicode编码:保存中文BASE64编码:保存...
    Tomatoro阅读 16,909评论 7 186
  • Spring Web MVC Spring Web MVC 是包含在 Spring 框架中的 Web 框架,建立于...
    Hsinwong阅读 22,301评论 1 92
  • 一个人的一生有多长,我不知道,不过我想只要能陪你直至白发,或许我就能满足吧,但我好像撑不了那么久了,意识已经开始模...
    風与魚阅读 176评论 0 0
  • 听红利喜马拉雅关于快乐父亲的讲座,提到两个小观点印象深刻。一是,有人问世界上最美好的最想听到的一个词是什么?不是我...
    pennyzhou阅读 160评论 0 0