以前写过一篇类似的文章: 如何打包自己的项目并且发布到pypi上,不过由于PyPI进行了一些更新,因此旧方法不大适用了。趁端午有时间,想把hai...
今天刷一道算法题的时候用到了list_a == list_b的判断,==和is大家都已经是耳熟能详了,前者是判断值是否相等,后者是判断引用是否相...
最近由于工作需要,接触了两类监控类产品,一类是对于系统资源,系统状态、应用状态等信息的监控,主要是使用prometheus+grafana,这个...
昨日使用haipproxy作为代理源,对知乎进行了数据抓取相关的性能测试,测试效果还不错,有兴趣的可以点击项目主页查看测试结果。但是它仍有继续优...
使用过代理IP的同学应该都知道,即使是同一个IP,访问不同网站,可用性和速度都可能大不相同。因此,根据实际使用情况编写特定站点的代理校验器是非常...
目前有这么一个需求:线上有很多个爬虫程序,它们在数据清洗完成后都要做文本情感分析。以往同学的做法是在每个爬虫中把相同代码都Copy一份,但是考虑...
持续集成(CI)对于软件工程来说非常重要,它的意义在于产品快速迭代的同时,还能够让代码保持高质量,所以编写高质量的单元测试代码也显得十分重要。T...
本篇文章将是『如何构建一个分布式爬虫』系列文章的最后一篇,拟从实战角度来介绍如何构建一个稳健的分布式微博爬虫。这里我没敢谈高效,抓过微博数据的同...
由于分布式微博爬虫中使用celery作为分布式任务调度工具,使用redis作为celery的broker.由于redis是单机,当redis挂掉...
文集作者