Python爬虫初体验

python不用多介绍啦,前几天看新闻说python在浙江都列入高考了,可见这门语言有多火。但是博主一直是秉承着需要什么就拿来用什么的想法,一直也没怎么接触python(之前实在没遇到什么case push博主去撸撸python。

背景

最近偶然遇到这么一个case,博主所在的APM项目,非常依赖于不同机型不同iOS版本的测试,但是手头的机器实在过少,所以一直使用Testin的测试服务。最近新版本的测试结果出来了,网站提供的下载入口长下面这样:

设备结果列表.jpg

点击列表的详情进去后才能找到下载日志的入口:


设备测试结果详情.jpg

以前每次测试完成后都需要手动每个设备点进去下载每个日志,足足需要这样重复操作去下载好几十个日志,作为一个懒汉程序员实在不能忍受这么浪费生命的事情:)

这不最近python这么火么,趁机上手撸一次python爬虫,希望执行一个脚本就能下载全部的日志文件。

python入门的教程是在廖雪峰大神的博客看的,快速了解了下python的语法,脚本语言不用深究,能拿来干活就行。具体网上了解python爬虫的正确姿势的过程在这就不表了。

分析路径

工欲善其事必先利其器,python爬虫既然是和网络打交道那charles是必不可少的,除此之外还有chrome。

我们倒着分析,打开charles,然后再浏览器中一步步点击网页,最终到达包含下载日志入口的设备详情页后,这里有个小技巧,我们看下载按钮的名字叫“下载日志zip包”便可以在charles中(command + F)全局搜索这个关键字:

charles搜索下载按钮.jpg

果然出现了一条结果,双击进去。

下载按钮网页.jpg

我们看到这里包含了日志下载的链接,同时我们发现了这条post请求同时传入了两个参数adaptId和reportId。我们记住这个url。

再往回倒,我们是点击详情按钮进来这个页面的,同样的方法:


搜索详情按钮.jpg
详情按钮网页.jpg

果然在这个列表这个页面发现了列表中设备的adaptId和reportId,这个网页的post请求包含了一系列筛选的参数,在这里是adaptId和curPage从名字我们已经能猜到参数的含义,我们记住这个url。

那么,现在只剩下adaptId了。

emmm..这时候在charles的全局搜索中搜索出的adaptId已经包含了太多的结果,没有参考价值。TestIn给我们发的邮件中有这个:

在线报告链接.jpg

大胆猜测这个链接返回的结果中包含了adaptId,果然在charles的返回的结果中找到了这个参数。

寻找adaptId.jpg

注意看图,这是一个302重定向的请求,第二条请求的结果才是最后的结果。

登录

邮件中查看报告的链接是登录账号密码后才能查看的。现在的web服务器一般用cookie来标识浏览器的请求,这里关于cookie的知识不过多介绍了,不了解的读者自行google。

这里博主陷入了一个坑,因为cookie的机制是在登录的请求中,服务器校验账号密码后会在response的header中加入set-cookie的字段,把cookie放入其中,博主的思路是模拟登录后,拿到这个set-cookie的字段然后再在后续的请求的request的header中加上cookie字段。然而理论是理论,实践总是有点差异,这里这种方式死活行不通,我猜测这里web服务器的cookie的值设定有更多的逻辑,博主的方式一定是少设置了某个值。

被坑了半天后,博主发现其实python的requests库已经有接口帮忙做了cookie校验这个事情!类似下面这样:

s = requests.session()
s.post(login_url, login_param)
# 后续用s(session)发起的请求自动附带cookie信息

这个教训告诉我们凡事先google,看有没有现成的解决方案:)

登录的接口该怎么找呢?? 这里有个技巧(别问博主第一次写爬虫为什么知道这么多技巧)

在chrome的登录页右键检查,然后故意输错账号密码,尝试登录。

登录接口.jpg

如图中红框所示,点击network,然后在底下就能找到登录接口的url,同时能找到post请求的表单数据FormData。这样子登录的参数也出来了email和pwd。

所有的逻辑走通后下面这张图就出来了:

爬虫流程图.jpg

解析HTML内容&逻辑代码

上面截图的请求返回结果的HTML的红圈中有我们需要的内容,所以如何在html中解析内容也是十分关键的,这里采用python自带的Xpath库,十分的好用,教程看这里

下面两行代码通过//input[@id='adaptId']/@value这个字符串就取到了adaptId,可以说是十分简单粗暴了,这里不详细展开Xpath的用法了。

# 2.获取adaptid
report_res = s.get(report_url)
adaptId = etree.HTML(report_res.text).xpath("//input[@id='adaptId']/@value")[0]

还剩下一下新建,删除文件夹,解压zip文件的操作,这里就不细说了,网络库用的是requests。这里把Testin的测试报告当做参数传入,这个链接每次测试都不一样,其他的链接都要固定的。下面是最后的脚本代码:

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# 需传入一个参数 >>>>>> 报告链接的url字符串
# 举例 >>>>>> ./getTestinLog.py http://realauto.testin.cn/xxxxx

import os
import sys
import shutil
import urllib.request
import zipfile
import glob
import requests
from lxml import etree

# 一定要穿一个邮件中报告链接的参数url!
if len(sys.argv) < 2:
    print('请输入邮件中报告的url作为参数!')
    sys.exit()

# 邮件中查看链接报告的url 用来获取adaptId
report_url = sys.argv[1]

login_url = 'xxxxxx'

page_url = 'xxxxxx'

device_detail_url = 'xxxxxx'

login_param = {'email': 'xxx',
               'pwd': 'xxx'}

if os.path.isdir('./log_tmp'):
    shutil.rmtree('./log_tmp')
if os.path.isdir('./log_final'):
    shutil.rmtree('./log_final')
os.mkdir('./log_tmp')
os.mkdir('./log_final')

# 1.模拟登陆操作获得cookie
s = requests.session()
s.post(login_url, login_param)

# 2.获取adaptid
report_res = s.get(report_url)
adaptId = etree.HTML(report_res.text).xpath("//input[@id='adaptId']/@value")[0]
print('>>>>>>adaptId ' + adaptId)

# 3.依次访问5个有设备信息的列表
for page in range(5):
    page = page + 1
    print('>>>>>>this is page:', page)

    page_param = {'adaptId': adaptId, 'curPage': page}
    page_res = s.post(page_url, data=page_param)
    reportDetail = etree.HTML(page_res.text).xpath('//a[@style="background-color:#37bc9b;"]/@href')

    # sub_url是一个列表中每个设备条目的信息
    # 4. 从sub_url中获取每个设备的下载链接
    for sub_url in reportDetail:
        reportId = sub_url.split('&')[2].split('=')[1]
        detail_param = {'adaptId': adaptId,
                        'reportId': reportId}
        detail_res = s.post(device_detail_url, data=detail_param)
        download_info = etree.HTML(detail_res.text).xpath("//div[@class='right_btn']/a[2]/@href")[0]
        download_info_arr= download_info.split('\'')
        download_url = download_info_arr[1]
        download_name = download_info_arr[3]

        # 获取到了下载的链接
        print('download:' + download_url + '    name:' + download_name)

        # 5.下载日志zip文件
        urllib.request.urlretrieve(download_url, download_name) 
        # 解压
        with zipfile.ZipFile(download_name, "r") as zip_ref:
            zip_ref.extractall('./log_tmp')
        
        # 重命名
        for tmp_name in glob.glob('./log_tmp/*'):
            os.rename(tmp_name, './log_final/'+download_name.split('zip')[0]+'log')

        # 删除zip文件
        os.remove(download_name)

# 删除临时文件夹
shutil.rmtree('./log_tmp')

运行结果

直接上图吧:


命令行截图.jpg
日志结果.jpg

总结

博主认为在python爬虫中最重要的是想清楚你的目标和达到这个目标所需要的路径,也就是用charles和chrome分析的过程,至与网络操作和文件操作的接口现查python接口就好了,最重要的是分析的逻辑。

同时python现在的库非常丰富,python用来处理数据也是很方便,善用python能自动化很多东西。

虽然写这个爬虫脚本花了点时间,但是以后每次获取日志就不需要手动一个个去点击下载了,博主认为这是非常值得去做的一件事。日常的开发中如果有一些能自动化的事情还是交给脚本去做,能大大的提高工作效率。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335