模拟查询地铁卡记录

关键词python 模拟登陆 验证码识别 bs4解析网页 pandas数据处理

1. 思路

这几天尝试写了个脚本模拟登陆获取地铁一卡通的充值和消费记录,学习了不少新东西,总结下记录下来。整个流程大概这样,首先模拟登陆一卡通的查询网址,分析如何获取验证码,然后就是下载验证码并识别,分析网站post数据字段,模拟post构造的数据登陆,获取登陆后的网页,bs4解析网页找到需要的数据筛选出来,pandas处理这些数据使其结构化。

2. 模拟登陆

2.1 cookie的处理

因为涉及到验证码的问题,登陆需要使用cookie。requests可以很方便的使用cookie,只需要在最开始构建一个会话session,接下来的请求以这个session为基础,requests会自动为后面的请求带上cookie。

conn = requests.session()
resp = conn.get(url, headers=headers, verify=False)

2.2 SSL证书

有些网站需要校验SSL证书,我们可以手动在浏览器中下载这个网站的SSL证书存放到本地,在构建请求的时候的用verify字段指定证书的路径。但是我没有尝试成功,目前的猜想是网站上有些字段需要携带在请求里一起验证。

最简单的解决办法就是不做验证,可以在会话开始指定,也可以在请求字段中指定:

conn.verify = False

或者:

resp = conn.get(url, headers=headers, verify=False)

2.3 验证码获取和识别

如何获取到验证码呢?我们知道每点击一次验证码图片就会刷新一次,由此可以得出:点击验证码图片的时候浏览器会重新向服务器发送请求,我们可以在开发者工具里点击验证码并捕捉这个请求,观察其特征。


验证码请求

可以发现,验证码的URL有固定的结构,其中变化的部分就是后面的一串数字,不难发现这串数字就是时间戳。知道了验证码的URL后,我们就可以构建请求下载验证码了。

# 构造验证码地址
id = time.time()*1000
img_url = url + 'captcha.svl?d=' + str(int(id))

# 保存验证码
img_resp = conn.get(img_url, headers=headers)
with open('verify.jpg', 'wb') as fd:
    for chunk in img_resp.iter_content(chunk_size=1024):
        fd.write(chunk)

利用Tesseract-OCR、pytesseract和Pillow库识别验证码,可以参考我之前的这篇文章:python验证码识别

3. 模拟填写表单

识别完验证码就可以模拟填写表单了。首先我们找到表单提交的URL以及相关的字段,还是利用浏览器开发者工具观察提交表单时候产生的请求并分析。


表单的请求

可以看到,表单中包含四个字段,我们也同样构造这几个字段,构建一个post请求给指定的URL。

params = {
    'pageNo': '1', 
    'iscapt': 'true', 
    'cardNo': cardNumber, 
    'capstr': verify_code
}
post_url = 'https://www.bmac.com.cn/kpcx/inquiryCardRecord.jhtml'
post_resp = conn.post(post_url, data=params, headers=headers)

4. 分析html数据

这部分主要是bs4的用法,这块儿我还不是很熟,总结下几个函数的用法。

  • find_all()

find_all( name , attrs , recursive , text , **kwargs )

find_all() 方法搜索当前tag的所有子节点,并判断是否符合过滤器的条件。
soup.find_all("a")  ##查找文档中所有的<a>标签
soup.find_all('tr',  "item")  ##查找tr标签,class="item"
soup.find_all('tr', class_='item') 
# attrs 参数定义一个字典参数来搜索包含特殊属性的tag
soup.find_all('tr', attrs={"class": "item"}) 

带属性的标签,推荐用上面的第2种或第3种写法。

  • find()

find( name , attrs , recursive , text , **kwargs )

find_all()方法返回的是文档中符合条件的所有tag,是一个集合(class 'bs4.element.ResultSet'),find()方法返回的一个Tag(class 'bs4.element.Tag')

  • select()

select可以筛选元素,按标签逐层查找。

soup.select("html head title")  ##标签层级查找
soup.select('td  div  a')  ## 标签路径 td --> div --> a
soup.select('td > div > a') 

注意,以上按路径 标签之间的空格 td div a,可以用>,但也要注意>与标签之间都有空格。

注意:select()方法指定标签属性可以这样用:

uls = soup.select('a.nbg')   # <a class="nbg">
  • 其他方法

    • getText() 针对以上几种方法的迭代对象,获取对象的内容
  • pandas使用

   pay_frame = DataFrame(pay_dict, columns=data[3:7]) # 从dict构建DataFrame
   merge_frame = pd.concat([cosume_frame, old_frame], ignore_index=True) # ataFrame合并
   merge_frame.drop_duplicates('交易时间', inplace=True) # 去重
   merge_frame.to_csv('cosume.csv', float_format='%.2f', encoding='gbk', index=False) # 写入CSV文件
   old_frame = pd.read_csv('cosume.csv', encoding='gbk') # 读取CSV
  • 其他
    字典设置键值以及对应键值初始化:
dict.setdefault(key, default=None)

参考链接

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352