不写规则也能抽数据? —— 以 BOSS 直聘职位页薪资解析为例 一、业务背景:企业为什么越来越依赖招聘数据分析 在企业人力资源管理中,招聘早已...
一、起点:当并发只是一个“配置项” 在多数采集项目的早期,并发控制几乎是一个无需讨论的问题。 我们会在配置文件里写下一个数字,比如 10、20、...
如果你维护过一段时间的采集系统,大概率会经历这样一个阶段: 一开始一切都很顺利,requests 一跑,数据就回来了。后来目标站点开始限速,你加...
稳定性不是零错误,而是可预期 很多人一提“系统稳定性”,第一反应都是:是不是出错了?是不是挂了? 但如果你真的做过企业级的数据系统,尤其是金融、...
一开始,我也觉得这事挺离谱的。 网络嘛,不就是发请求、收响应?最多加个代理、配个 timeout。 但后来你会发现一件很微妙的事: 你越来越多的...
任务队列明明在跑,为什么整体速度却越来越慢 任务队列越堆越多,Worker 明明在跑,机器资源看着也不紧张,可就是——慢得离谱。 你盯着 Red...
从简单脚本到精细调度:执行环境控制的三代演进图谱 写这篇文章之前,我翻了翻旧项目仓库,看到那些“能跑就行”的代码片段,突然有点怀旧。它们简单粗暴...
一次关于渲染时序的真实事故复盘 这次事故,不是被封 IP。也不是代理失效,更不是帐号过期。 说出来有点反直觉:爬虫连页面“什么时候算加载完”都判...
——从一次冷启动事故开始谈 如果说过去的爬虫架构像一辆固定路线的公交车,那么 Serverless 的出现,让开发者突然拥有了“随叫随到的无人驾...