百万级并发下的去重挑战:Bloom Filter 与 Redis 的组合方案 说实话,做采集最怕的是重复抓、抓重复。你花了一整晚采集到几百万条数...
——一次关于网页“行为语言”的深度调查 一、当规则不再可靠 在早期的网络世界,数据采集就像一个懂语法的阅读者。它根据固定规则(XPath、CSS...
一、时间线:从“任务卡死”到“队列瘦身” 那天凌晨三点,我盯着终端上那行熟悉的报错信息,整个人是懵的。任务堆积、线程阻塞、超时重试——看起来像是...
如果说文字页面的爬取是“读懂网页的语言”,那图像和视频内容的采集就是“看懂网页的表情”。这几年,小红书、抖音、B站这类以视觉为主的平台已经成了信...
如果你也曾试过从金融网站上抓数据,就会知道那种“更新快、格式乱、延迟高”的感觉有多折磨人。尤其是像东方财富网(Eastmoney)这种每天都在滚...
前言 如果你抓取过像 Amazon 这样的全球电商网站,你一定有过这种崩溃体验:同一个商品链接,打开美国站是英文版,切到日本站变成全角文字,再到...
一、从设计模式谈起:任务去重这件小事,其实不小 在大多数抓取项目里,任务去重看上去是个再普通不过的小功能。可当采集规模一旦上到成千上万条请求,它...
一、先聊聊“增量采集”到底是啥 搞数据的人大多听过“全量采集”和“增量采集”这两个词。前者就像每次做家务都要把整个屋子从头到尾扫一遍,不管脏没脏...
每到双十一,消费者在京东抢券、下单、薅羊毛,而在另一边,技术团队也忙得不可开交——他们在做一件听起来枯燥但至关重要的事:实时监控商品价格变化。 ...