网络爬虫肆意横行简书，只因……

简书系统最近又闹别扭了，听说无法上传或不显示图片；还有失常锁文。

所幸，又听说在技术员一番温柔安抚之后，情绪已逐渐稳定下来了。

我第一反应是点开美文网搜索一番，结果发现最近的文章都被爬取了，唯一不同的是不显示图片，点开页面也只有标题而已：

这是巧合吗？于是我再尝试搜索小木的主页：

难道简书与爬虫网站是命运共同体？

这让我想起一件事，据说爬虫把简书的文章与图片都爬取后，还是直接用简书的图床链接。

试想，当他们站流量大了之后，图片却还在简书这里，而图片存储和 CDN 都得花钱……这又有多冤枉啊！

至于美文网图片不显示是否与此次系统闹别扭有关，我不懂这方面的技术，所以只能猜测。

说到简书系统一直闹别扭，我就更不负责任猜想是让虫子搞得抓狂了。

或许有人会说干嘛不把虫子拍死？

说起来，网络爬虫就与大自然的虫子一样。

自然界的虫子有分益虫与害虫，而网络爬虫也分合法与非法；所以不能一拍子把虫子都灭了。

爬虫既然不可灭，于是就有了与爬虫之间的一份协议——robots.txt（爬虫协议）。

协议列明了爬虫访问权限与可抓取的内容。

说白了，就比如简书是一间大酒店，不想被打扰的就在房门挂上“请勿打扰”的牌子；没挂牌子的即默许被打扰。

这份协议是君子协议，君子遵守而小人无视。

但是，在侵权的诉讼上，绝对能以此协议为依据提出起诉——虽然没有制约性，但是却有法律效力……貌似有些矛盾？

那么，简书可有robots.txt？

当然有，协议内容也不是什么秘密，只要上网输入关键词就能轻易获得。

jianshu robots.txt——

我不是技术员，看不懂这份协议也很正常，不过听小明说这份协议内容并没有设限，简单来说就是没在我们房门囗挂上“请勿打扰”的牌子。

说得再直白一点就是没有限制爬虫对简书文章的抓取！

不阻止即是默许？

因为没说不许爬取，所以爬虫爬得理直气壮？

明知一早已让爬虫盯上，简书官方为什么不规范爬虫的访问权限？

为什么不禁止爬虫肆意採集？

为什么无视用户的诉求？

为什么不在乎优秀作者因此失望愤而放弃简书？

我还得再三强调，我不了解这方面的专业，所以希望有人给出答案……

在不断搜索的过程，更骇人听闻的竟然是有人在简书上发帖公开教导如何利用爬虫技术爬取简书用户的文章！

python爬虫系列之数据存储实战：爬取简书用户文章列表并保存

一个大胆的想法，爬取简书所有的文章信息

除此，以“如何爬取简书文章”为关键词搜索又会出现怎样的讯息？

搜索至此，眼前一片黑暗，简书是砧板上任人鱼肉的平台？

这是讽刺？还是对简书官方的警示？

简书官方还能无视吗？难道不该积极正视并想设法去亡羊补牢吗？

我不明白，对此，你们又是怎么看的？

慢！

如果把关键词“简书”换成某乎某条又如何？

我尝试了……你就把搜索所得的简书换成某乎某条就是答案了。

最后，我只能说反爬虫的过程就八个字：

道高一尺魔高一丈

这是一场艰苦的长期维权之战，我们希望简书未来更好，也明白现实与理想的差距——可我们更希望看见的是上下一心的一致。

最怕的是底下在反抗，上面的深知反抗的难处而消极化作享受。

无论如何艰难，我们都不该放弃！

不是吗？

最后想说的是，我理解与表达能力有限，所说也就想着能起到抛砖引玉的作用。

同时，我更相信万众一心的力量，你呢？

关于简书那些你也许并不感兴趣的骇人公开秘密

关于简书那些你也许并不感兴趣的骇人公开秘密

慢！

道高一尺魔高一丈

相关阅读更多精彩内容

友情链接更多精彩内容