数据蜘蛛 - 简书

IP属地：四川

Canvas/Audio 浏览器指纹：从原理到绕过，一次讲清楚
先说结论：如果你在做数据采集，IP 轮换只是过了第一关。现在的大站反爬，真正拦你的不是 IP 频率，是浏览器指纹。而 Canvas 和 Audi...

4 0 0
为什么爬虫并发拉到几百，吞吐反而掉了？记一次高并发爬虫性能瓶颈排查与实战
很多做过数据采集和爬虫扩容的兄弟，几乎都经历过这样一个令人抓狂的场景：你手里有一个刚写好的爬虫，开 20 个并发的时候，每秒能稳稳当当地处理 ...

22 0 0

2026架构前沿：将Declarative Crawler（声明式爬虫）引入你的技术栈
大家好，今天我们在 Mac mini 的终端前，来聊聊 2026 年数据工程领域的一个重要架构演进。作为一个经常与高并发采集任务和代理 IP ...

15 0 0
技术拆解：单页面应用（SPA）路由跳转后的数据抓取策略
爬虫开发者第一次撞上 SPA（Single Page Application），通常是这种场景：浏览器里点一个分类标签，列表刷出来了；用 req...

20 0 0
爬虫实战：如何优雅地抓取网页中隐藏在伪元素(::before)里的文本？
相信很多写过一段时间爬虫的同学大概率撞过这堵“隐形墙”：在浏览器里明明白白显示着"¥9.9"的价格，或者一段验证码文本，但当你切换到 DevTo...

21 0 0
谈谈长连接（Keep-Alive）在超大规模爬虫抓取中的性能差距
大家好，欢迎回到我的技术专栏。在日均抓取量突破千万级别的爬虫场景里，连接管理是决定单机 QPS 和机器成本的关键因素。很多团队在初期用短连接跑得...

15 0 0
实战：利用Playwright隐藏自动化特征（Stealth模式）的底层原理
大家好，今天我们来聊聊自动化爬虫中一个非常让人头疼的问题。很多兄弟经常遇到这样的场景：用Playwright写好的爬虫代码，本地跑得好好的，一放...

12 0 0

深度对比：Scrapy vs PySpider，谁更适合作为企业级分布式底层？
搭建一个日产千万级页面的企业级分布式爬虫系统，框架选型往往是决定项目生死的第一步。在 Python 生态中，Scrapy 和 PySpider ...

38 0 1
别只盯着HTML了！教你高效抓取并解析PDF/Excel隐藏附件？
在日常的数据采集工作中，大家可能会发现一个痛点：大多数的爬虫教程只教你怎么抓取HTML页面的数据。但在实际的业务场景里，像央行年报、政府公开数据...

25 0 1