字体反爬之58同城求职简历数据抓取

一直想写一篇关于字体反爬的文章,但是由于时间问题一直拖到现在,字体反爬的网站有很多比如猫眼电影专业版、汽车之家、58同城、大众点评等,今天我就拿58同城试刀,当然58同城不止求职简历才有字体反爬,比如租房模块也有,大家有空可以自己去研究。

目标

抓取58同城深圳地区的简历信息,由于此次主要是为了破解字体反爬,而且简历信息只有姓名、性别、年龄、工作经验、学历才有字体反爬,所有我们只抓这几个信息,并且时间问题我们只抓取第一页


抓取目标

目标分析

首先用浏览器对页面进行抓包分析,找到信息所在的文件:

抓包

通过抓包发现信息就在当前页面,并没有JS加载渲染以及Ajax异步加载,既然找到了信息的地方,那我们先检查一下我们要抓取的信息:
Elements检查

一检查就傻眼了,发现我们要抓取的信息全部都乱码了,我们再查看一下网页源代码:
网页源代码

我们发现有一些字被编码了,这到底是怎么回事呢?其实这就是我们今天要讲的字体反爬,网站采用了自定义的字体文件,通过字体映射然后在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符,那么知道了字体反爬的原理,我们就要找到字体文件,字体文件在哪里呢?字体文件一般抓包的时候可以抓到或者定义到了页面里:
Font抓包的字体文件

网页源代码中的字体文件

可以看到两个地方都找到了字体文件,而且我们发现字体文件进行了base64编码,我们直接把字体文件下载下来,然后用百度的FontEditor工具来查看字体文件:
FontEditor查看字体文件

网页源代码中的编码

页面显示的内容

查看字体文件字体对应的编码然后把它们带入到网页源代码中的编码,你会发现居然还原了内容,看到这里你也许会说这还不简单,我把这些字和编码组成对应的映射集合,然后每次抓取的数据按照这个映射集合来替换不就是了,确实可以这样,但是如果你刷新页面后,你再看网页源代码中的编码和字体文件,你会发现字体文件对应的编码变了:
刷新后的字体文件

我们发现字体文件对应的编码变了,但是所有的字没有变,那我们该怎么办呢?这是就要用到Python里面的字体库Font­Tools了。

字体库Font­Tools介绍

Font­Tools 是一套以 ttx 为核心的工具集,用于处理与字体编辑有关的各种问题,程序用 Python 编写完成,代码开源,具有良好的跨平台性。Font­Tools 由以下 4 个程序组成:

  • ttx 可将字体文件与 xml 文件进行双向转换
  • pyft­merge 可将数个字体文件合并成为一个字体文件
  • pyft­sub­set 可产生一个由字体的指定字符组成的子集
  • pyftin­spect 可显示字体文件的二进制组成信息

Font­Tools 原本是托管在 Source­forge 上的项目,由于原项目长期停滞,Be­hdad 在 Github 上 fork 并继续进行开发。由于 Font­Tools 基于 Python 写成,在安装 Font­Tools 之前需要首先安装 Python。

字体库Font­Tools基本使用

  1. TTFont()用于打开本地字体文件
from fontTools.ttLib import TTFont
 
# 可以是.ttf类型的字体文件也可以是.woff类型的字体文件
# font=TTFont('58.ttf')
font=TTFont('58.woff')
  1. coordinates用于获取字体坐标
from fontTools.ttLib import TTFont
 
font=TTFont('58.woff')
# 获取编码为uniE0AC的字体的坐标
x_y = font['glyf']['uniE0AC'].coordinates
  1. saveXML()将ttf文件或woff文件转化成xml格式并保存到本地,主要是方便查看内部数据结构

from fontTools.ttLib import TTFont
 
font=TTFont('58.woff')   
font.saveXML('58.xml')

把字体文件转化成xml格式,以便打开查看里面的数据结构。打开xml文件可以看到类似html标签的结构:

XML结构

而对我们有用的是<GlyphOrder>标签对象glyf标签对象
<GlyphOrder>标签对象

点开标签内部,<GlyphOrder...>内包含着所有编码信息,注意前两个是不是0-9的编码,需要去除。
glyf标签对象

<glyf...> 内包含着每一个字符对象<TTGlyph>,同样第一个和最后一个不是0-9的字符,需要去除。点开<TTGlyph>对象,里面的信息如下,是一些坐标点的信息,可以想到这些点应该是描绘字体形状的,而且我们发现不同的字体文件虽然编码不一样,但是只要它们对应的文字一样,所以我们可以在<TTGlyph>对象里找出坐标规律,这就是我们破解字体反爬的关键所在。

破解思路

先在本地保存一份字体文件58.woff,并通过FontEditor工具确认编码和数字的对应关系,保存到字典中。然后重新访问网页的时候,把网页中新的字体文件也下载保存到本地58tc.woff。先获取58tc.woff中的<GlyphID...>里的编码name的值(uni编码),再通过uni的对象获取其对应的TTGlyph对象的坐标,然后取前2个计算差值,与58.woff中的每一个TTGlyph对象的坐标差值相减注逐一判断是否等于0,再根据TTGlyph对象对应的编码,在字典中找到对应的数字。

import requests
from lxml import etree
import re
import base64
from fontTools.ttLib import TTFont

url = "https://sz.58.com/searchjob/"


headers = {
    'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/73.0.3683.86 Safari/537.36",
    }

response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
font_face = html.xpath('//head/style[1]/text()')[0].strip()
# 提前字体文件
base64_code = re.findall(r"base64,(.*?)\)",font_face)
if len(base64_code)!=0:
    base64_code = base64_code[0]
woff = base64.b64decode(base64_code)
# base64 写入字体文件58tc.woff中,一定要wb方式写入,每次运行代码会覆盖文件
with open("58tc.woff","wb") as f:
    f.write(woff)

# 打开下载保存好的新字体文件58tc.woff
font = TTFont('58tc.woff')
# 打开本地保存的基本字体文件58.woff
base_font = TTFont("58.woff")

# getGlyphNames()[1:-1]和getGlyphOrder()[2:]结果是一样的
# uni_list = font.getGlyphNames()[1:-1]
uni_list = font.getGlyphOrder()[2:]

# 定义一个临时存储新字体文件映射关系的字典temp
temp = {}
# 把本地字体文件的映射关系用base_uni和base_value两个列表映射保存
base_uni = [
            'uniE0AC', 'uniE0D6', 'uniE189', 'uniE19A', 'uniE1BC', 'uniE441', 'uniE47A', 'uniE4BE', 'uniE4F1',
            'uniE587', 'uniE5B0', 'uniE5CE', 'uniE615', 'uniE632', 'uniE701', 'uniE87F', 'uniEAC1', 'uniEAF9',
            'uniEB60', 'uniEB96', 'uniEBB0', 'uniEC03', 'uniEF5F', 'uniEF8B', 'uniF037', 'uniF076', 'uniF0A0',
            'uniF13A', 'uniF14D', 'uniF1DB', 'uniF264', 'uniF2D1', 'uniF31A', 'uniF386', 'uniF406', 'uniF46B',
            'uniF49A', 'uniF4DB', 'uniF5F0', 'uniF607', 'uniF62A', 'uniF6E6', 'uniF772', 'uniF787', 'uniF7B9'
]
base_value =[
             '7', '下', '王', '周', '专', '0', '女', '博', '杨', '李', '校', '技', '届', '8', '男', '科', '中',
             '赵', '生', 'M', '9', '以', '经', '6', '陈', 'A', '验', '黄', 'B', '5', '士', '1', '张', '硕', '4',
             '高', '无', '大', '吴', 'E', '应', '3', '2', '本', '刘'
]
# 循环对比
for i in range(len(base_uni)):
    # 编码字体坐标转化成了列表,列表里是一个个元组,元组里放的是(x,y)坐标
    new_glyph = list(font['glyf'][uni_list[i]].coordinates)
    # 用前两个坐标作为取差值
    new_glyph_difference = [abs(k[0] - k[1]) for k in new_glyph[:2]]
    for j in range(len(base_uni)):
        base_glyph = list(base_font['glyf'][base_uni[j]].coordinates)
        base_glyph_difference = [abs(n[0] - n[1]) for n in base_glyph[:2]]
        # 比较两个差值是否为0
        if int(abs(sum(new_glyph_difference) / len(new_glyph_difference)-sum(base_glyph_difference) / len(base_glyph_difference))) == 0:
            # 把编码去掉uni三个字符然后转换成全小写,再拼接成网页源代码一样的编码格式,最后把映射关系存储到temp字典中
            temp["&#x" + uni_list[i][3:].lower() + ';'] = base_value[j]

# 构造正则表达式用|匹配左右任意一个表达式,替换编码
re_rule = '(' + '|'.join(temp.keys()) + ')'
# 把所有的编码替换成文字
response_data = re.sub(re_rule, lambda x: temp[x.group()], response.text)
data = etree.HTML(response_data)
personal_information = data .xpath('//div[@id="infolist"]/ul/li//dl[@class="infocardMessage clearfix"]')
for info in personal_information:
    # 姓名
    name = info.xpath('./dd//span[@class="infocardName fl stonefont resumeName"]/text()')[0]
    # 性别
    gender = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[1]/text()')[0]
    # 年龄
    age = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[2]/text()')[0]
    工作经验

    work_experiences = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[3]/text()')
    if work_experiences == []:
        work_experience = ""
    else:
        work_experience = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[3]/text()')[0]
    # 学历
    educations = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[4]/text()')
    if educations == []:
        education = ""
    else:
        education = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[4]/text()')[0]
    print(name, gender, age, work_experience, education)

结果

运行结果

下面是58.woff文件的下载地址,直接复制这个地址到浏览器下载,下载好放到项目目录同级下并改名为58.woff

58.woff文件:data:application/font-woff;charset=utf-8;base64,

总结

  • 字体反爬的关键在于字体文件转换成xml文件,虽然编码变了但是中间的规律就是我们破解的依据
  • 如果字体和编码都会发生变化的字体反爬,那么这种方式就不适合,只能使用OCR来识别文字与编码
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容

  • 一、字体反爬的概述 目前字体反爬的网站是猫眼,汽车之家,天眼查,起点中文网,58同城等等。还有:https://w...
    梦捷者阅读 825评论 0 1
  • 最近兴致上来,就想更换了那Blog标题字体(汉字的);网上搜索了一番,发现蘇新詩柳繁體这款甚合我心;然后就着手搞将...
    晚晴幽草阅读 2,377评论 1 8
  • 我用眼睛看,虽然看不到心灵的恶与善。但懂得蓝天下有这刹那的风景作伴。所以,我不会放弃属于自己的那份态度。让一切浑浊...
    不俗小七阅读 507评论 14 31
  • 看过年会之后,感受最大的是自己的激情都去哪儿了?
    TechLeap阅读 248评论 0 0