大数据概念已经提出来很多年,但直到最近十年,相关的技术发展才引起大数据的爆发。其中最重要的是大量数据产生并且存储起来。数据的三个来源:1 电脑(如一些log存储文件)2 传感器 3 对之前的所有信息的数字化记录。数据量越来越大,相应的,存储数据的能力也必须加强。几十年前,人们用即使Mb的软盘记录数据,后来是数Gb的硬盘,现在,存储能力已经提高了很多,但仍跟不上数据量的增长。于是,有人从节省数据存储空间上下功夫,减少数据冗余,提高数据使用便携性(比如最近几天,苹果的iOS系统升级为iOS10.3,很多老用户发现自己手机内存比之前大了不少,这是因为苹果采用了全新的数据处理格式)。
硬件软件条件都达到,接下来更重要的是数据挖掘,即如何处理使用数据。谷歌大脑项目的核心就是更有效率的处理数据,也就研发出了去年名震一时的alpha go。谷歌的算法是人工神经网络算法,举个例子,它可以在不告诉计算机兔子长什么样的情况下让计算机自主学习,并在上万张图片中选出兔子的照片。当然,机器学习不是一般企业可以做到的,所以未来一定会出现专业提供机器学习服务的机构。这也引发了另一个重要问题,保护隐私和数据安全。
现在科学家们为了保护数据安全做了两方面努力。一方面是加强文件系统本身的安全设计,但是收效甚微,今天的文件系统和40年前的并没有太多改进。另一个方面是利用大数据本身的特点,学习了解数据间的联系,发现异常操作来防止数据泄露。比如一个人开车,这辆车学习了他所有的开车习惯,一旦遇到异常,如司机坐姿不对,就需要进行各种确认,如果不正确,就不能移动车,这可以有效防止偷车事件。