一直想写一篇关于字体反爬的文章,但是由于时间问题一直拖到现在,字体反爬的网站有很多比如猫眼电影专业版、汽车之家、58同城、大众点评等,今天我就拿58同城试刀,当然58同城不止求职简历才有字体反爬,比如租房模块也有,大家有空可以自己去研究。
目标
抓取58同城深圳地区的简历信息,由于此次主要是为了破解字体反爬,而且简历信息只有姓名、性别、年龄、工作经验、学历才有字体反爬,所有我们只抓这几个信息,并且时间问题我们只抓取第一页
目标分析
首先用浏览器对页面进行抓包分析,找到信息所在的文件:
通过抓包发现信息就在当前页面,并没有JS加载渲染以及Ajax异步加载,既然找到了信息的地方,那我们先检查一下我们要抓取的信息:
一检查就傻眼了,发现我们要抓取的信息全部都乱码了,我们再查看一下网页源代码:
我们发现有一些字被编码了,这到底是怎么回事呢?其实这就是我们今天要讲的字体反爬,网站采用了自定义的字体文件,通过字体映射然后在浏览器上正常显示,但是爬虫抓取下来的数据要么就是乱码,要么就是变成其他字符,那么知道了字体反爬的原理,我们就要找到字体文件,字体文件在哪里呢?字体文件一般抓包的时候可以抓到或者定义到了页面里:
可以看到两个地方都找到了字体文件,而且我们发现字体文件进行了base64编码,我们直接把字体文件下载下来,然后用百度的FontEditor工具来查看字体文件:
查看字体文件字体对应的编码然后把它们带入到网页源代码中的编码,你会发现居然还原了内容,看到这里你也许会说这还不简单,我把这些字和编码组成对应的映射集合,然后每次抓取的数据按照这个映射集合来替换不就是了,确实可以这样,但是如果你刷新页面后,你再看网页源代码中的编码和字体文件,你会发现字体文件对应的编码变了:
我们发现字体文件对应的编码变了,但是所有的字没有变,那我们该怎么办呢?这是就要用到Python里面的字体库FontTools了。
字体库FontTools介绍
FontTools 是一套以 ttx 为核心的工具集,用于处理与字体编辑有关的各种问题,程序用 Python 编写完成,代码开源,具有良好的跨平台性。FontTools 由以下 4 个程序组成:
- ttx 可将字体文件与 xml 文件进行双向转换
- pyftmerge 可将数个字体文件合并成为一个字体文件
- pyftsubset 可产生一个由字体的指定字符组成的子集
- pyftinspect 可显示字体文件的二进制组成信息
FontTools 原本是托管在 Sourceforge 上的项目,由于原项目长期停滞,Behdad 在 Github 上 fork 并继续进行开发。由于 FontTools 基于 Python 写成,在安装 FontTools 之前需要首先安装 Python。
字体库FontTools基本使用
-
TTFont()
用于打开本地字体文件
from fontTools.ttLib import TTFont
# 可以是.ttf类型的字体文件也可以是.woff类型的字体文件
# font=TTFont('58.ttf')
font=TTFont('58.woff')
-
coordinates
用于获取字体坐标
from fontTools.ttLib import TTFont
font=TTFont('58.woff')
# 获取编码为uniE0AC的字体的坐标
x_y = font['glyf']['uniE0AC'].coordinates
-
saveXML()
将ttf文件或woff文件转化成xml格式并保存到本地,主要是方便查看内部数据结构
from fontTools.ttLib import TTFont
font=TTFont('58.woff')
font.saveXML('58.xml')
把字体文件转化成xml格式,以便打开查看里面的数据结构。打开xml文件可以看到类似html标签的结构:
而对我们有用的是
<GlyphOrder>标签对象
和glyf标签对象
:点开标签内部,
<GlyphOrder...>
内包含着所有编码信息,注意前两个是不是0-9的编码,需要去除。<glyf...>
内包含着每一个字符对象<TTGlyph>
,同样第一个和最后一个不是0-9的字符,需要去除。点开<TTGlyph>对象
,里面的信息如下,是一些坐标点的信息,可以想到这些点应该是描绘字体形状的,而且我们发现不同的字体文件虽然编码不一样,但是只要它们对应的文字一样,所以我们可以在<TTGlyph>对象
里找出坐标规律,这就是我们破解字体反爬的关键所在。
破解思路
先在本地保存一份字体文件58.woff,并通过FontEditor工具确认编码和数字的对应关系,保存到字典中。然后重新访问网页的时候,把网页中新的字体文件也下载保存到本地58tc.woff。先获取58tc.woff中的<GlyphID...>
里的编码name
的值(uni编码),再通过uni的对象获取其对应的TTGlyph对象
的坐标,然后取前2个计算差值,与58.woff中的每一个TTGlyph对象
的坐标差值相减注逐一判断是否等于0,再根据TTGlyph对象
对应的编码,在字典中找到对应的数字。
import requests
from lxml import etree
import re
import base64
from fontTools.ttLib import TTFont
url = "https://sz.58.com/searchjob/"
headers = {
'user-agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/73.0.3683.86 Safari/537.36",
}
response = requests.get(url, headers=headers)
html = etree.HTML(response.text)
font_face = html.xpath('//head/style[1]/text()')[0].strip()
# 提前字体文件
base64_code = re.findall(r"base64,(.*?)\)",font_face)
if len(base64_code)!=0:
base64_code = base64_code[0]
woff = base64.b64decode(base64_code)
# base64 写入字体文件58tc.woff中,一定要wb方式写入,每次运行代码会覆盖文件
with open("58tc.woff","wb") as f:
f.write(woff)
# 打开下载保存好的新字体文件58tc.woff
font = TTFont('58tc.woff')
# 打开本地保存的基本字体文件58.woff
base_font = TTFont("58.woff")
# getGlyphNames()[1:-1]和getGlyphOrder()[2:]结果是一样的
# uni_list = font.getGlyphNames()[1:-1]
uni_list = font.getGlyphOrder()[2:]
# 定义一个临时存储新字体文件映射关系的字典temp
temp = {}
# 把本地字体文件的映射关系用base_uni和base_value两个列表映射保存
base_uni = [
'uniE0AC', 'uniE0D6', 'uniE189', 'uniE19A', 'uniE1BC', 'uniE441', 'uniE47A', 'uniE4BE', 'uniE4F1',
'uniE587', 'uniE5B0', 'uniE5CE', 'uniE615', 'uniE632', 'uniE701', 'uniE87F', 'uniEAC1', 'uniEAF9',
'uniEB60', 'uniEB96', 'uniEBB0', 'uniEC03', 'uniEF5F', 'uniEF8B', 'uniF037', 'uniF076', 'uniF0A0',
'uniF13A', 'uniF14D', 'uniF1DB', 'uniF264', 'uniF2D1', 'uniF31A', 'uniF386', 'uniF406', 'uniF46B',
'uniF49A', 'uniF4DB', 'uniF5F0', 'uniF607', 'uniF62A', 'uniF6E6', 'uniF772', 'uniF787', 'uniF7B9'
]
base_value =[
'7', '下', '王', '周', '专', '0', '女', '博', '杨', '李', '校', '技', '届', '8', '男', '科', '中',
'赵', '生', 'M', '9', '以', '经', '6', '陈', 'A', '验', '黄', 'B', '5', '士', '1', '张', '硕', '4',
'高', '无', '大', '吴', 'E', '应', '3', '2', '本', '刘'
]
# 循环对比
for i in range(len(base_uni)):
# 编码字体坐标转化成了列表,列表里是一个个元组,元组里放的是(x,y)坐标
new_glyph = list(font['glyf'][uni_list[i]].coordinates)
# 用前两个坐标作为取差值
new_glyph_difference = [abs(k[0] - k[1]) for k in new_glyph[:2]]
for j in range(len(base_uni)):
base_glyph = list(base_font['glyf'][base_uni[j]].coordinates)
base_glyph_difference = [abs(n[0] - n[1]) for n in base_glyph[:2]]
# 比较两个差值是否为0
if int(abs(sum(new_glyph_difference) / len(new_glyph_difference)-sum(base_glyph_difference) / len(base_glyph_difference))) == 0:
# 把编码去掉uni三个字符然后转换成全小写,再拼接成网页源代码一样的编码格式,最后把映射关系存储到temp字典中
temp["&#x" + uni_list[i][3:].lower() + ';'] = base_value[j]
# 构造正则表达式用|匹配左右任意一个表达式,替换编码
re_rule = '(' + '|'.join(temp.keys()) + ')'
# 把所有的编码替换成文字
response_data = re.sub(re_rule, lambda x: temp[x.group()], response.text)
data = etree.HTML(response_data)
personal_information = data .xpath('//div[@id="infolist"]/ul/li//dl[@class="infocardMessage clearfix"]')
for info in personal_information:
# 姓名
name = info.xpath('./dd//span[@class="infocardName fl stonefont resumeName"]/text()')[0]
# 性别
gender = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[1]/text()')[0]
# 年龄
age = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[2]/text()')[0]
工作经验
work_experiences = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[3]/text()')
if work_experiences == []:
work_experience = ""
else:
work_experience = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[3]/text()')[0]
# 学历
educations = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[4]/text()')
if educations == []:
education = ""
else:
education = info.xpath('./dd//div[@ class="infocardBasic fl"]/div/em[4]/text()')[0]
print(name, gender, age, work_experience, education)
结果
下面是58.woff文件的下载地址,直接复制这个地址到浏览器下载,下载好放到项目目录同级下并改名为58.woff
58.woff文件:data:application/font-woff;charset=utf-8;base64,
总结
- 字体反爬的关键在于字体文件转换成xml文件,虽然编码变了但是中间的规律就是我们破解的依据
- 如果字体和编码都会发生变化的字体反爬,那么这种方式就不适合,只能使用OCR来识别文字与编码