实习僧
字体反爬就是浏览器页面显示的字符和调试窗口或者源码的内容显示不一样 这是因为网站定义了一个字体文件 去渲染文字 浏览器一加载字体文件再进行数据渲染 就变为正常的数据了
1702132357156.png
1702132362123.png
页面看到的数据是正常的 但是检查元素的这些文字是一堆问号 包括我们如果用爬虫去获取数据 找目标url的响应
1702132371668.png
这里面的数据就是编码之后的数据,在响应中显示的是一堆编码数据,说明服务端返回的就是这样编码之后的数据 ,但是这个编码之后的数据我们不想要 ,我们想要的就是页面上看到的数据 这种情况下就是字体反爬
网站会通过引入css文件去加载字体文件
@font-face 这是可以通过这个样式给网站设置一个自定义字体文件
1702132428091.png
1702132436038.png
import requests
res = requests.get('https://www.shixiseng.com/interns?keyword=python&city=%E5%85%A8%E5%9B%BD&type=intern')
font_url = re.findall('src: url\((.*?)\);',res.text) # 原本里面有小括号 进行一下转义
print(font_url)
font_url = re.findall('src: url\((.*?)\);',res.text)[0] # 取出里面的第一条数据
不是完整的url 需要拼接域名
font_url = 'https://www.shixiseng.com'+font_url
print(font_url)
# 请求字体文件url 得到字体文件的数据保存到文件中,一般字体文件的后缀是.ttf
with open('shixi.ttf','wb')as f:
f.write(requests.get(font_url).content)
1702132497130.png
1702132505926.png
页面格式
1702132514450.png
python不能直接操作字体文件,不好直接找映射关系 所以需要对这个字体文件去做一个转换 转成一个xml格式的文
pip install fontTools 字体操作库
from fontTools.ttLib import TTFont
with open('shixi.ttf','wb')as f:
f.write(requests.get(font_url).content)
font = TTFont('shixi.ttf') # 加载字体文件
# 转为xml文件
font.saveXML('shixi.xml') # 运行代码生成shixi.xml文件
1702132557341.png
1702132563760.png
'''
服务端响应:
xml对应 0xe032
name对应 uni30 === 0
如何把字体文件中的code 0xe032 替换成 服务端响应回来的 
如何把字体文件中的name uni30 替换成 0
\u5e08 uni5E08
'''
def font_cmap(bc):
# 创建空字典 用来保存修改后的映射关系
new_cmap = {}
# print(bc)
# 删除字体映射的第一个
del bc[120]
# print(bc)
# 循环字典,
for key,value in bc.items():
# 对key转为16进制
key = hex(key).replace('0x','&#x')
value = value.replace('uni','')
if len(value)<4:
# 拼接\u00
value = r'\u00' + value
else:
# 拼接\u
value = r'\u' + value
# value保存的是一个unicode编码
value = value.encode('utf-8').decode('unicode_escape')
# 字典名[key] = value
# 往字典中添加新数据 如果key在字典中不存在,则添加,如果key在字典中存在,则根据键修改值
new_cmap[key] = value
return new_cmap
cmap = font_cmap(font.getBestCmap())
# 对响应数据做替换 res cmap.items() 获取映射关系,才可以获取到key和value
for key,value in cmap.items():
if key in res:
# 做替换
res = res.replace(key,value)
# print(res)
# 数据解析
tree = etree.HTML(res)
divs = tree.xpath('//div[@class="intern-wrap interns-point intern-item"]')
for div in divs:
title = div.xpath('.//div[@class="f-l intern-detail__job"]/p[1]/a/text()')[0]
price = div.xpath('.//div[@class="f-l intern-detail__job"]/p[1]/span/text()')[0]
print(title,price)
58同城
https://cs.58.com/pinpaigongyu/?PGTID=0d200001-0019-e327-7fcf-55f256cc023b&ClickID=1
1702132891334.png
1702132895886.png
1702132901870.png
这个也是有字体反爬的 但是这里的css设置并不是直接提供的url 而是base64编码 只需要对这个编码在python中进行解码保存在字体文件中即可
import base64
from fontTools.ttLib import TTFont
from lxml import etree
url = 'https://cs.58.com/pinpaigongyu/?PGTID=0d200001-0019-e327-7fcf-55f256cc023b&ClickID=1'
import requests
res = requests.get(url).text
# 用正则取出@font-face的url
import re
font_base64 = re.findall("src:url\('data:application/font-ttf;charset=utf-8;base64,(.*?)'\) format",res)[0]
#
# # 对内容进行解码
font_data = base64.b64decode(font_base64)
# # 对解码之后的内容保存到文件中
with open('58_2.ttf','wb')as f:
f.write(font_data)
font = TTFont('58_2.ttf')
font.saveXML('58_2.xml')
多操作几次 生成不同的字体文件 去分析是否有不同
'''
code name code相同 值不同
字体1 0x9476 glyph00002
字体2 0x9476 glyph00010
如何把字体文件中的code 0x9476 ---》 龥
如何把字体文件中name glyph00001变为页面中的实际数据 0
glyph00002 1
glyph00003 2
glyph00010 9
'''
def font_cmap(bc):
# 创建空字典 用来保存修改后的映射关系
new_cmap = {}
# 循环字典,
for key,value in bc.items():
key = hex(key).replace('0x','&#x')
# 对value获取后面的数字 - 1
value = int(re.findall('\d+',value)[0]) - 1
# 字典名[key] = value
# 往字典中添加新数据 如果key在字典中不存在,则添加,如果key在字典中存在,则根据键修改值
new_cmap[key] = value
return new_cmap
cmap = font_cmap(font.getBestCmap())
# 对响应数据做替换
for key,value in cmap.items():
if key in res:
# '鑶'
res = res.replace(key+";",str(value))
# 数据解析
tree = etree.HTML(res)
lis = tree.xpath('//ul[@class="list"]/li')
for li in lis:
# strip是字符串的方法,用来去除左右两边的空格
title = ''.join(li.xpath('.//h2/text()')).strip()
room = ''.join(li.xpath('.//p[@class="room"]/text()'))
# 使用正则做替换,\s匹配空格 第二个参数 把空格换成空字符串 第三个参数是数字
room = re.sub('\s','',room)
price = ''.join(li.xpath('.//span[@class="strongbox"]//text()'))
price = re.sub('\s','',price)
print(title,room,price)