盘点简书究竟养肥了多少爬虫!

简书,是创作乐园。

同时也是网络爬虫的乐园。

在不去深究就岁月静好的假象底下,认真追查之后的真相又如何?

而那些下作网站利用爬虫技术对简书的侵权究竟有多严重?简书作者的文章又养肥了多少爬虫?

万籁俱寂的夜里,我仿佛听见了虫子蚕食的声音……


美文网


在简书首页,搜索感兴趣内容的框架内输入关键词“美文网”,你会发现于2019年有无数呼吁简书官方正视这个爬虫网站的帖子。

同时,你也会看见简书官方公告举报美文网的声明。

如今,美文网是否还在继续爬取简书文章?

很不幸的,美文网确实当简书官方是病猫,所以这条爬虫丝毫没有罢手的意思。




台部落


同样的,在简书首页输入“台部落”这三个字,显示的声讨与呼吁简书官方正视并维权的帖子至少三十多篇。

这回,简书官方连公告也懒得发了,对于简友的举报也只是官方回复——重视并紧急处理。

所幸在多篇声讨文让台部落的爬虫爬取后,就如同灭虫药发挥了作用,台部落这条爬虫自21/12/2021年之后就再也没敢潜入简书爬文。

然而,于2020年之前注册成为简书用户的简友,他们的个人主页至今仍然滞留在台部落。

更甚的是,台部落同时也是许多TW色站散播广告色帖的站点,因此窃取自简书的文章将无可避免地以那些不堪入目的帖子为伍。

别忘了,爬虫是自动爬文程序,所以文章里的链接自然也会跳转回到简书……不知情者会否将简书与台部落这两者互相挂勾也就难说了。


IT610


这是一个标榜私人收藏网站。

美其名为学术交流,实则利用爬虫窃取大量简书文章以充作流量招徕广告获利。

据搜索所得,此网站注册于北京,单位人称是赵磊。



网易新闻


这个盗文和一般爬虫网不同。

我在搜索过程无意中发现了一篇自己的文章才得以发现,在输入“简书”这个关键词以后,你会发现一个很诡异的现象。



若是在简书搜索以上的作者,你肯定徒劳无功。

就以我自己为例:



这篇文章作者署名一白聊故事,你如果利用网页搜索其中一小段,就会发现有另一版本。



然后再搜索这个一白聊故事的主页,只见一天更新好几篇,利用网页搜索又发现每一篇都是搬运文;同样的,其他被搬运至网易的简友也是一模一样的操作。



你若是以为这是个人抄袭行为就大错特错了,因为作者与头像都是虚的。

大量简书文章在这里都经过加工化名处理,然后再分配至各个不同的主页,但是文章标题若有原作者之名却被大意忽略……这是人为或程序疏忽倒是不得而知了。

午夜情书为例:



简友夏不安曾知会我,午夜情书抄袭了我某篇文章,然而我却一直搜索不到午夜情书的页面,如今却在网易一并寻着。

从截图可见,那是一篇消零派的月份总结,但是作者原名则仍旧保留在标题内。

网易并非小网站,然而也一样肆无忌惮在爬文,对此,我百思不得其解。


短文学网


我真怀疑平台上的文章是资源共享了。

这绝非抄袭,应该也是爬虫自动爬取更新,而且更新挺快的。

但是,有些被爬取的主页并非一篇不漏地搬运,有些百篇以上的也只是搬了两、三篇。

至于是否正准备全面爬取则不敢断言。



点进其中一篇观察,文章前竟然还标注“原文出处”,难道对方已知会简书官方?

而简书官方忘了应该通知原作者?

我当然不懂,只是在猜测到底有几种可能性?



每日教育网


这个网站也是以“简书消零派”为关键词搜索得来。



点开这个网站的主页,里头当然也有大量简书作者的文章。



轰轰烈烈不过是刚好而已人生的下半场拼的是孩子,《 无人知𣇈:一个90后小镇青年的野蛮生长 》1章2节:生日礼物是“单亲与寄居”……这些文章的发表日期皆是05/02/2022,前后仅相差三个多小时啊!



摄影圈子


这也是私人网站?

当中发现了三个自称为作者,一叫摄影、一叫人生旅途、还有一个叫文艺调频。

也许还有更多……

不过,就以搜索的文章而言,却是好几位简友的作品。

除外,这就位在简书都注册了几个账号。

否则,真相就只有一个了。




离奇的是:



摄影圈子究竟是什么圈子?

也许,会有简友知道答案?


至于还有没有其他的网站也有简书的文章?

我相信还有。

据搜索资料所知,网络爬虫访问网站的过程会消耗目标系统资源。

如果这么多爬虫前来简书爬文,简书的系统能承受吗?

我不懂这些,只是很好奇简书系统经常出状况,到底和爬虫有没有关联呢?

而简书官方,你们还在装睡吗?

装睡就可以岁月静好吗?

在这深沉的夜里,我仿佛又听见虫子在爬行的声音了……


©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容