今天,搜索引擎已经成为大家上网冲浪的标配,甚至有“内事不决问百度,外事不决问谷歌”的说法。搜索引擎可以根据用户的需要提供内容丰富的网上信息,相对于传统的纸质信息媒介,从根本上改变了人们获取及处理信息的习惯,极大提高了效率。而其基础就在于大量收集网页信息的网络爬虫。在搜索引擎发展的初期,程序猿小哥哥相互间炫耀的一个指标就是自己的爬虫收集的网页数量。
由于网络爬虫的策略是尽可能多的“爬过”网站中的高价值信息,会根据特定策略尽可能多的访问页面,占用网络带宽并增加网络服务器的处理开销。例如,某个网站上有一个10MB的文件,使用爬虫抓取该文件1000次,就会使网站产生大量出站流量(可在数分钟内达到GB级),引起的后果很可能是灾难性的。这种攻击达到的效果似曾相识,类似臭名昭著的DDoS攻击,使网页服务在大量的暴力访问下,资源耗尽而停止提供服务。
此外,恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途,主要表现在以下几个方面:(1)网站入侵,大多数基于网页服务的系统都附带了测试页面及调试用后门程序等。通过这些页面或程序甚至可以绕过认证直接访问服务器敏感数据,成为恶意用户分析攻击的有效情报来源,而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞。(2)搜索管理员登录页面,许多在线系统提供了基于网页的管理接口,允许管理员对其进行远程管理与控制。如果管理员疏于防范,一旦其管理员登录页面被恶意用户搜索到,将面临极大的威胁。(3)搜索互联网用户的个人资料,互联网用户的个人资料包括姓名、身份证号、电话、邮箱地址、QQ号、通信地址等个人信息,恶意用户获取后有可能实施攻击或诈骗。因此,采取适当的措施限制网络爬虫的访问权限,向网络爬虫开放网站希望推广的页面,屏蔽比较敏感的页面,对于保持网站的安全运行、保护用户的隐私是极其重要的。
当人们习惯于将一切生活转移至互联网上时,意味着在这个虚拟世界中,一个人比在现实生活中还要透明。而大数据的兴起,让这种对个人的“网络画像”变得越来越容易,精度也越来越高。更令人心悸的是,带着个人信息的各种数据在互联网上几乎随处可见,并可轻易获得。别不把自己的信息当盘菜,当你的一切都变得透明时,你的还是你的吗?!