首先来谈谈啥叫“爬虫”?
你有没有用过抢票软件?每当春运或者节假日期间,我们总能看到各种抢票软件在微信群中疯转。大家求爷爷告奶奶一般,希望你能帮忙点个加速,好能够早一点买到归家或旅行的车票。
但无论你如何努力,往往总是直到最后千钧一发之刻,才能拿到前往远方的车票。
这个让你可能又爱又恨的抢票软件,它的技术原理就是爬虫。
所谓爬虫,如果从技术原理上讲,它就是一个高效的下载工具,能够批量将网页下载到本地,留作备份。如果结合一些其他工具和算法,就能够实现,收集同一类型的网页,重复执行同一动作等行为。
简单讲,就是通过技术和算法模拟一个人在网络上的行为,像人一样点网页,像人一样下订单,只不过,相比起真人,他的效率高的异常。
它的工作状态有些像蚁群,每个蚂蚁的工作任务都非常简单,但是,当一大群蚂蚁重复相同的工作的时候,就能产生超乎寻常的效果。
比如说,如果你需要把全网关于某个关键词的网站全部收集汇总到一起(比如:三节课),这时,就是爬虫挨个查找所有关于三节课的信息,呈现到你的面前。
再比如说,当你想要找到12306中,某天所有北京到上海的余票,爬虫就可以帮助你不停地刷新网页,直到出现那张可以带你出发的车票。
在互联网世界,所有收集信息的过程,都离不开爬虫的参与。可以这样说,没有爬虫,就没有互联网。
接着再聊聊“爬虫”的善与恶
爬虫也分善恶。
爬虫最为广泛,也使人受益最大的应用就是搜索引擎。
现在,几乎所有有一定体量的app,都会有一个搜索框,通过搜索框,你可以查找到各种你需要的信息和内容,这是爬虫对人最大的价值。同时,也是支撑起谷歌近万亿美元市值的工具之一。
但是,并不会是所有的爬虫都像谷歌这样你好我好大家好,反而真的会像虫子一样惹人烦恼。
图片来源网络
上面这张图,显示了爬虫流量的主要去向,每个色块背后,都是一个真实而又强大的利益链条。这些流量的去向,就不再充满善意,更多情况下,是生长在灰色地带。
这些爬虫,或是为了一己私利,或是出于某些商业利益,对某一款app疯狂的骚扰,甚至影响了正常业务发展。这些爬虫,就是恶意的爬虫(虽然恶意,对于消费者来说可能并不是坏事,这里的恶意主要是指对被爬网站的恶意)。
接下来,我们来展示一下那些恶意爬虫应用,以及这些应用都是怎么赚钱的?
1)刷票软件
12306常年饱受爬虫软件的骚扰。
许多刷票软件,通过加价,或者要求分享转发的方式,帮助你买票,进而实现收入或者用户的增长。
这个看起来并不复杂的行为,其实带给12306巨大的压力。
你知道每年过年之前,12306 被点成什么样了吗?公开数据是这么说的——
“最高峰时1天内页面浏览量达813.4亿次,1小时最高点击量59.3亿次,平均每秒164.8万次。”
在每秒164.8万次点击背后,不仅是全国人民急切的回家之心,还有无数刷票软件带来的天量点击。
你可能还记得,前两年12306上线了奇葩的验证码,需要我们在一堆图片中,找到符合要求的一种。图片清晰度感人,要求奇葩,时不时会闹出各种各样的笑话。还有许多人在网上吐槽12306是不是故意刁难我们?
为推广传统文化,12306不遗余力
说实话,这真不是12306故意刁难我们,实在是饱受爬虫骚扰之后的无奈之举。许多人利用爬虫技术反复登录刷新,力求在新的余票出现之时,第一时间抢到票。
为了尽可能避免这种情况,尽可能让真人买到票,12306才不得不上线这些奇葩的验证码。许多爬虫只有最简单的点击和收集数据的能力,并不能识别图片,绝大多数爬虫都会被拦截。
但是,还是会有少部分的高阶玩家,攻破这道防线。
有一种东西叫做“打码平台”,你可以了解一下。
打码平台雇佣了很多叔叔阿姨,他们在电脑屏幕前不做别的事情,专门帮人识别验证码。
那边抢票软件遇到了验证码,系统就会自动把这些验证码传到叔叔阿姨面前,他们手工选好之后,然后再把结果传回去。总共的过程用不了几秒时间。
而且,这样的打码平台还有记忆功能。如果叔叔阿姨已经标记了某张图,那么下次这张图片再出现的时候,系统就直接判断。
时间一长,12306 系统里的图片就被标记完了,机器自己都能认识,叔叔阿姨都可以坐在一边斗地主了。
即使如此,还是做到了每秒164.8万次点击,如果没有这层防火墙,数量更是难以想象。
你可能会问,就算用了刷票软件又如何,抢到票不就好了?
且不说刷票软件带来的巨大的流量压力,需要为此多付出的服务器成本。为了防范刷票,不得不将注册和验证流程越搞越烦琐,平添无数烦恼。
而且,你用抢票软件买到了票,那么,不会使用抢票软件的叔叔阿姨们又该怎么办呐?
所以,这事不是你方便了就好。
2)僵尸粉大军
在微博上有一类粉丝,叫做“僵尸粉”。
我们经常能够看到一些微博名称中带着一长串数字,没有头像,却疯狂的转发一些热门评论,或者疯狂对着一个微博点赞转发,点开主页却一条微博都没有。这些没有头像,以数字命名的微博粉丝,就是僵尸粉。
它们按时上班,找到某个人的微博,疯狂的点赞留言转发关注,造成一种火热的幻觉。
僵尸粉的兴起,与爬虫也离不开关系。
就像我们说的,爬虫是模仿真人的行为,但是,只能模仿最简单的行为,比如说,按照事先安排好的文案和进行评论,再比如说,点赞转发加关注。所以,如果只看数据,不仔细分辨,往往能够瞒天过海。
许多僵尸粉每天日夜辛劳,刷赞刷评论刷关注,为微博的活跃数据添砖加瓦,贡献一份力量。
可是,微博不像是12306,可以靠买票赚钱,刷量又有什么用呐?
用处大了。
你是一个萌新用户,用爬虫伪造出10万粉丝,按时按点互动点赞留言。
广告主看到数据很开心,在你这里投放广告,提升注册数。可是你这都是爬虫的假账号,没有真人该咋办呐?
没事,你找不来人没关系,有爬虫啊。你有十万个爬虫账号,可以匀出一万来,点击注册账户,刷刷刷把数据刷上去,躺着就把钱赚了。。
再不济,有一个看起来火热的号,还可以乘着机会早日卖掉,这也换来一波不菲的收入。
最后,你还能靠买清粉工具再赚一波。
别人只是一石二鸟,你可能是一鱼三吃,实在是佩服。
而且,微博官方对这事其实心知肚明,只不过睁一只眼,闭一只眼罢了,毕竟,有了僵尸粉,数据还好看很多,何乐而不为呐?
3)返利电商刷低价
不知道你还记不记得有一类网站叫“聚合电商”“返利平台”等等等等。
这些网站,也是爬虫工具的受益者,它的基本原理和搜索引擎类似。
搜索引擎是将网页爬取过来,聚合在一起展示出来。
返利网站是将商品爬取出来, 聚合在一起展示出来,顺道把不同网站的商品做一个比价。
当然,无论是淘宝还是京东,对于这件事都是拒绝的,毕竟,谁也没法保证自己的每件商品就是全网最低价。如果都被返利网站展示出来,岂不就亏了。
不过,对于店铺来说,可能就不一样了,毕竟,多一个渠道就多一份销售额,在哪卖不是卖啊。
这类网站,原理和搜索引擎接近,盈利模式也差不多。
一方面,他们经常会设置竞价排名,通过花更多钱,获得更好的广告位,提升销售额。
如果觉得竞价排名良心过意不去,你还可以设置独立广告位,点击一次转一次的钱。
不过,最大头的收入还是做中间商,店铺每成交一单,店家适当给平台一些返利。
对于消费者来说,这可能不算什么坏事,不过,对于电商平台来说,可能不算好事,毕竟这些店铺能来网上卖货都是靠他们的努力,平白无故就被你抓取了,最后钱还让你赚走了,心情肯定不好。
4)社区批量抓取数据和内容
再有一类,就是马蜂窝那一类的网站。
其实,许多社区产品中的内容,大多数都是爬虫爬取而来,除了像马蜂窝,许多问答、文库或招聘网站都会通过爬虫获取内容。
毕竟,好内容自带流量,当你有了足够多的优质内容,也就有了足够大的流量,变现就很轻松了。
对此,被爬网站有时候也是睁一只眼,闭一只眼,管不管,全在于自己有没有这项业务。
最典型的例子就是领英,领英在2017年曾经将一家名为HiQ的数据分析企业告上法庭,原因是认定这家企业抓取领英用户的就职状态信息,提供给另外两家利用机器学习分析员工跳槽倾向和职业技能的企业。
结果却是即使打着保护用户隐私的旗号,领英仍然败诉并且被联邦法庭要求开放数据接口。
原因是HiQ已经这样爬取领英的数据长达五年,领英一直知情并且曾经去参加过HiQ组织的论坛峰会。如今领英自己开展了和HiQ类似的业务,就要断了HiQ的生路。
这和大多数网站对待爬虫的态度都很接近,当你规模不大,或者我还不准备做你这块的生意时,可以纵容你爬取我的信息,一定程度上,这个爬取过程还能提高我的受益。
但是,一旦超出我的承受范围,就要采取必要手段反击。
以上,就是爬虫常见的一些骚操作,说实话,这也只是窥其一角,爬虫在整个互联网中的应用,远超你的想象。
政务网站、搜索引擎、地图、自媒体等等等等一系列火热的应用,背后都有爬虫的身影,这也是为什么我们说,没有爬虫,就没有互联网。
最后再聊两个常见的问题
1)这事违法吗?
目前尚没有任何法律明确规定,类似爬虫这样的行为违法。
即使是之前热评的马蜂窝,你可以说他侵权,但是,如果他将自己定位为平台的话,那些将其它网站内容放在马蜂窝的行为,其实也是用户自发,与平台无关。
毕竟,就像我们说的,爬虫毕竟也只是模仿人的行为,难道,你要因为一个人或一群人点击次数过于密集而惩罚他吗?
所以,爬虫本身并不违法。但是,你如何使用爬虫获取的数据和信息,大多数情况都是有明确的规定的。
比如说,你将别人有明确版权的文章或者图片爬取出来,作为商用,这无疑是侵权行为,我当然可以告你。
再比如说,你爬取一些个人隐私数据,公开买卖,也是违法行为,我也是可以处理的。
2)我究竟应该如何看待爬虫?
对于个人而言,爬虫作为高效的信息和数据获取工具,一定是互联网人的必备技巧,他将大幅节省你的时间,极大程度提高你的工作效率。
举个最简单的例子,作为一个新媒体从业者,我会把一些我喜欢的公众号文章通过爬虫爬取下来,进行分析对比,这要比我一篇一篇的看效率高多了。
比如说竞品分析、行业研究、人群画像等工作,通过爬虫,你可以只需要几分钟的时间,就能够将某一类数据全部爬取下来,然后有针对性的进行数据分析,优化你的行文。
对于公司来说,爬虫的应用空间就更为巨大了。
这两年火热的今日头条就是典型案例,不太严谨的说,今日头条核心就是做了三件事——
把网络上所有的资讯文章,以及用户在社交网站上的数据爬取下来。
把这些数据进行分类打标签,进行一一对应。
将拥有同类标签的文章和用户进行匹配。
通过高效的应用搜索引擎和个性化推荐功能,将传统的人找信息的分发模式,转变为信息找人的分发模式,帮助其成为一家独角兽。
你或许做不成下一个今日头条,但是,拥有更多的数据能够帮助你做成的事情,超过你的想象。
但是,技术虽然有价值,如何使用技术就成为新的问题。
马蜂窝这次的事件发生,给我们提了个醒,很多创业公司早期,都难免会在灰色地带做一些事情。
毕竟当初整个互联网世界还是一片蛮荒,大家都在跑马圈地,你不干,就有别人干,生存第一,虽然原则上不能原谅,但是情感上也能理解。
但是,当你已经成为一家成熟的大公司时,就必须承担必要的责任和底线。
在很多时候,应用爬虫其实是一个零和游戏,一方受益就代表着另一方受损,会使用抢票软件的人就会使不使用抢票软件的人受损;使用僵尸粉刷量的人,抢夺的是那些辛辛苦苦做内容的媒体人的空间;返利平台则是直接截了电商的胡。
很难说在这场竞争中究竟孰是孰非,孰优孰劣。但是,一旦我们的竞争,并没有让大家变得更好,或者是以一方付出更高的代价来实现的,这件事真的还合理吗?
对于在互联网行业做产品还是做运营的所有人来说,我们工作的最大意义,正是在于“我们在运用着自己力所能及的一些方法和工具,一点点在让这个世界变得更加完整和美好”的可能性。
而爬虫也应该是在这个过程中可以运用到一种工具和方法,用这个能量巨大的工具,让我们自己,也让我们所处的环境变得更好,不也更有意义吗?