
不写规则也能抽数据?
—— 以 BOSS 直聘职位页薪资解析为例
一、业务背景:企业为什么越来越依赖招聘数据分析
在企业人力资源管理中,招聘早已不是“发岗位、等简历”这么简单。
越来越多的 HR 团队、用人部门和管理层,开始关注这些问题:
* 同类岗位在市场上的真实薪资区间是多少?
* 我们给出的薪资是否高于 / 低于市场中位数?
* 不同城市、不同公司规模,对同一岗位的薪资描述有什么差异?
* “15-25K”“20K·14薪”“年薪 30-50 万”这些描述,如何统一量化?
要回答这些问题,招聘网站的数据几乎是唯一可靠的数据来源。
而在国内招聘平台中,BOSS 直聘的职位页有一个非常典型的特征:
薪资描述高度非结构化
这恰好成为“规则爬虫”和“智能解析”能力边界的分水岭。
二、问题本质:薪资字段,为什么这么难爬?
以 BOSS 直聘为例,同一个“Python 工程师”岗位,薪资可能长这样:
* 15-25K
* 20-30K·13薪
* 年薪 40-60 万
* 面议
* 18-22K + 项目奖金
* 25K 起,上不封顶
从 HR 的角度看,这些描述信息量很大;但从采集工程的角度看,这是一个噩梦:
* 没有固定格式
* 单位混杂(K / 万 / 年薪)
* 薪资结构嵌套在自然语言中
* 页面 UI 经常调整
这正是“智能解析”被频繁提起的现实土壤。
三、第一阶段:纯规则采集 —— 能用,但极其脆弱
1. 规则采集的典型做法
早期的做法非常直接:
* 分析 BOSS 直聘职位页 DOM
* 用 XPath / CSS Selector 定位薪资节点
* 提取文本,再用正则解析数值
//div[@class="salary"]/text()
2. 在 HR 分析中的优势
* 精准
* 可解释
* 适合少量、固定页面
3. 致命问题
* 页面 class 名经常变化
* A/B 测试导致 DOM 层级不同
* 薪资字段偶尔被拆分成多个节点
对企业而言,这意味着:
数据口径一旦不稳定,所有招聘分析结论都会失真。
四、第二阶段:半自动规则抽象 —— 成本转移,而非消失
为降低维护成本,工程上开始做一些“规则抽象”:
常见思路
* 不依赖绝对 XPath,而是:
o 查找“薪资关键词附近节点”
o 结合 DOM 位置关系
* 使用正则匹配:
o \d+-\d+K
o 年薪.*万
改进点
* 页面微调不至于立即失效
* 可复用到多个岗位页面
局限依然明显
* 规则数量依旧随页面复杂度增长
* “面议”“起薪”“上不封顶”等描述仍需人工兜底
本质上,工程复杂度只是被推迟了。
五、第三阶段:智能解析爬虫 —— 真正的转折点
随着 NLP 和大模型的发展,“智能解析”开始进入采集领域。
智能解析在招聘场景中的核心能力
* 自动识别“薪资语义块”
* 不再强依赖 DOM 结构
* 从自然语言中理解:
o 数值
o 区间
o 单位
o 薪资周期(月 / 年)
例如,模型可以判断:
“20-30K·13薪”→ 月薪区间 + 年终薪资结构
从 HR 数据分析角度看,这非常有吸引力:
* 更快覆盖新岗位
* 减少人工规则维护
* 数据规模扩展更容易
六、智能解析的边界:在招聘场景中尤为明显
但问题也在这里。
1. 页面行为与反爬
* BOSS 直聘存在:
o 动态加载
o 行为校验
o 访问频率限制
这不是智能解析能解决的问题,只能通过:
* 稳定代理 IP
* 合理访问策略
2. 语义漂移问题
同一个字段,在不同页面可能表达不同含义:
* “25K 起”
* “25K-35K(能力优秀可谈)”
模型理解的是“语义可能性”,而企业分析需要的是确定性口径。
3. HR 视角的核心需求
企业不关心模型“猜得像不像”,只关心数据是否稳定、可解释、可复盘。
这正是智能解析的天然边界。
七、工程实战:BOSS 直聘职位页采集示例(含代理 IP)
下面是一个最小可用示例,演示:
* 使用亿牛云爬虫代理保证访问稳定性
* 将“字段定位”交给智能解析模块
* 保留人工兜底空间
import requests
# ===============================
# 16YUN代理配置(示例)
# ===============================
proxy_host = "proxy.16yun.cn"
proxy_port = "8000"
proxy_user = "your_username"
proxy_pass = "your_password"
proxies = {
"http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
"https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)",
}
url = "https://www.zhipin.com/job_detail/xxxxxxxx.html"
response = requests.get(
url,
headers=headers,
proxies=proxies,
timeout=10
)
html = response.text
# ===============================
# 示例:将薪资解析交给智能解析模块
# ===============================
def smart_parse_salary(text):
"""
模拟智能解析结果
实际项目中可替换为 NLP / LLM 模块
"""
# 这里只演示接口形态,不做具体实现
return {
"min_salary": 20000,
"max_salary": 30000,
"unit": "monthly",
"extra": "13薪"
}
salary_info = smart_parse_salary(html)
print(salary_info)
关键说明
* 代理 IP 解决的是“能不能访问”
* 智能解析解决的是“字段怎么理解”
* 二者职责完全不同,不可混用
八、推荐的企业级落地方案
从 HR 数据分析的实际需求出发,最稳妥的方案不是“全智能”。
推荐组合策略
* 核心指标(薪资区间、岗位名称)
o 人工规则 + 校验逻辑
* 辅助信息(福利、描述文本)
o 智能解析
* 异常数据
o 自动标记 + 人工复核
架构原则
* 可解释 > 自动化程度
* 可回滚 > 模型准确率
* 数据稳定性 > 技术先进性