字体反爬

实习僧

字体反爬就是浏览器页面显示的字符和调试窗口或者源码的内容显示不一样 这是因为网站定义了一个字体文件 去渲染文字 浏览器一加载字体文件再进行数据渲染 就变为正常的数据了


1702132357156.png
1702132362123.png

页面看到的数据是正常的 但是检查元素的这些文字是一堆问号 包括我们如果用爬虫去获取数据 找目标url的响应


1702132371668.png

这里面的数据就是编码之后的数据,在响应中显示的是一堆编码数据,说明服务端返回的就是这样编码之后的数据 ,但是这个编码之后的数据我们不想要 ,我们想要的就是页面上看到的数据 这种情况下就是字体反爬

网站会通过引入css文件去加载字体文件
@font-face 这是可以通过这个样式给网站设置一个自定义字体文件

1702132428091.png

1702132436038.png
import requests
res = requests.get('https://www.shixiseng.com/interns?keyword=python&city=%E5%85%A8%E5%9B%BD&type=intern')

font_url = re.findall('src: url\((.*?)\);',res.text) # 原本里面有小括号 进行一下转义
print(font_url)
font_url = re.findall('src: url\((.*?)\);',res.text)[0] # 取出里面的第一条数据

不是完整的url 需要拼接域名

font_url = 'https://www.shixiseng.com'+font_url
print(font_url)

# 请求字体文件url 得到字体文件的数据保存到文件中,一般字体文件的后缀是.ttf

with open('shixi.ttf','wb')as f:
    f.write(requests.get(font_url).content)
1702132497130.png

1702132505926.png

页面格式
1702132514450.png

python不能直接操作字体文件,不好直接找映射关系 所以需要对这个字体文件去做一个转换 转成一个xml格式的文
pip install fontTools 字体操作库

from fontTools.ttLib import TTFont
with open('shixi.ttf','wb')as f:
    f.write(requests.get(font_url).content)
font = TTFont('shixi.ttf') # 加载字体文件
# 转为xml文件
font.saveXML('shixi.xml') # 运行代码生成shixi.xml文件
1702132557341.png
1702132563760.png
'''
服务端响应:&#xe57b
xml对应   0xe032
name对应  uni30 === 0

如何把字体文件中的code 0xe032 替换成 服务端响应回来的 &#xe57b
如何把字体文件中的name uni30 替换成 0


\u5e08  uni5E08 
'''
def font_cmap(bc):
    # 创建空字典 用来保存修改后的映射关系
    new_cmap = {}
    # print(bc)
#     删除字体映射的第一个
    del bc[120]
    # print(bc)
#     循环字典,
    for key,value in bc.items():
        # 对key转为16进制
        key = hex(key).replace('0x','&#x')
        value = value.replace('uni','')
        if len(value)<4:
        # 拼接\u00
            value = r'\u00' + value
        else:
        # 拼接\u
            value = r'\u' + value
        # value保存的是一个unicode编码
        value = value.encode('utf-8').decode('unicode_escape')
#         字典名[key] = value
#         往字典中添加新数据 如果key在字典中不存在,则添加,如果key在字典中存在,则根据键修改值
        new_cmap[key] = value
    return new_cmap
cmap = font_cmap(font.getBestCmap())
# 对响应数据做替换 res cmap.items()     获取映射关系,才可以获取到key和value
for key,value in cmap.items():
    if key in res:
#         做替换
        res = res.replace(key,value)
# print(res)
# 数据解析
tree = etree.HTML(res)
divs = tree.xpath('//div[@class="intern-wrap interns-point intern-item"]')
for div in divs:
    title = div.xpath('.//div[@class="f-l intern-detail__job"]/p[1]/a/text()')[0]
    price = div.xpath('.//div[@class="f-l intern-detail__job"]/p[1]/span/text()')[0]
    print(title,price)

58同城

https://cs.58.com/pinpaigongyu/?PGTID=0d200001-0019-e327-7fcf-55f256cc023b&ClickID=1

1702132891334.png

1702132895886.png
1702132901870.png

这个也是有字体反爬的 但是这里的css设置并不是直接提供的url 而是base64编码 只需要对这个编码在python中进行解码保存在字体文件中即可

import base64

from fontTools.ttLib import TTFont
from lxml import etree

url = 'https://cs.58.com/pinpaigongyu/?PGTID=0d200001-0019-e327-7fcf-55f256cc023b&ClickID=1'
import requests

res = requests.get(url).text
# 用正则取出@font-face的url
import re

font_base64 = re.findall("src:url\('data:application/font-ttf;charset=utf-8;base64,(.*?)'\) format",res)[0]
#
# # 对内容进行解码
font_data = base64.b64decode(font_base64)
# # 对解码之后的内容保存到文件中
with open('58_2.ttf','wb')as f:
    f.write(font_data)
font = TTFont('58_2.ttf')
font.saveXML('58_2.xml')

多操作几次 生成不同的字体文件 去分析是否有不同

'''
        code   name  code相同 值不同 
字体1   0x9476  glyph00002
字体2   0x9476  glyph00010 


如何把字体文件中的code 0x9476  ---》 &#x9fa5;
如何把字体文件中name glyph00001变为页面中的实际数据 0
                  glyph00002                  1
                  glyph00003                  2
                  glyph00010                  9
'''
def font_cmap(bc):
    # 创建空字典 用来保存修改后的映射关系
    new_cmap = {}
#     循环字典,
    for key,value in bc.items():
        key = hex(key).replace('0x','&#x')
        # 对value获取后面的数字 - 1
        value = int(re.findall('\d+',value)[0]) - 1
#         字典名[key] = value
#         往字典中添加新数据 如果key在字典中不存在,则添加,如果key在字典中存在,则根据键修改值
        new_cmap[key] = value
    return new_cmap
cmap = font_cmap(font.getBestCmap())
# 对响应数据做替换
for key,value in cmap.items():
    if key in res:
        # '&#x9476;'
        res = res.replace(key+";",str(value))
# 数据解析
tree = etree.HTML(res)
lis = tree.xpath('//ul[@class="list"]/li')
for li in lis:
   #  strip是字符串的方法,用来去除左右两边的空格
   title = ''.join(li.xpath('.//h2/text()')).strip()
   room = ''.join(li.xpath('.//p[@class="room"]/text()'))
   # 使用正则做替换,\s匹配空格 第二个参数 把空格换成空字符串 第三个参数是数字
   room = re.sub('\s','',room)
   price = ''.join(li.xpath('.//span[@class="strongbox"]//text()'))
   price = re.sub('\s','',price)
   print(title,room,price)
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容