机器智能的概念已经被提出来60多年了,为什么大数据的拐点会发生在今天?
我们可以从数据的产生、存储、传输和处理四个角度来分析大数据形成的技术条件。
数据的产生与存储:
大数据的来源是:电脑本身,传感器以及过去已经存在的,以非数字化存储的信息数字化。
以传感器数据为例,像北京、上海这样的千万级人口大都市,摄像头数量超过10万个,
以每周7天,每天24小时工作,每个城市产生的录像时长高达每分钟1700小时以上。
之前这些数据,因没条件存储,隔几天就会被删除,但现在都保存了下来。
数据的传输与处理:
因为数据存储的分散性,当我们的网络带宽以KB计的时候,有再多再好的资源,也不容易获取,
而现在的光纤技术已相当普及,随之而来的,就是对信息处理能力的要求上升,
因为信息传输极大的提高,电脑必须在单位时间内处理的信息量也成倍提升了。
(大数据面临的另外一个难题就是:标准化数据格式,以便进行共享。)
而进行信息处理时,也并非简单加机器,Google--MapReduce(编程模型)
Yahoo--Hadoop(海杜普)等工具,它们能够把相当一部分大型计算机任务拆成若干小任务在很多并行的服务器上运算,
给大数据处理带来了福音。
另一个重要的方面是:数据挖掘与信息安全(隐私保护)
使用大数据,相当于在一堆沙子中淘金,由于原始数据常常是没有固定格式、杂乱无章的,对这些内容进行分析就成了使用大数据的先决条件。
也正是因为这种无序与杂乱,机器学习在信息处理与数据挖掘中显得尤为重要。
最后一点是信息安全与隐私,我们日常见到过太多的关于这方面的争论,但不可否认的是,如果我们需要享受到大数据带来的生活便利,那将需要放弃一部分隐私,但这是有前提的,也就是说,数据从采集到使用都需要是‘双向知情’的,数据的采集者和使用者,必须是被监督的。