这几年,大数据非常火,作为一个IT从业者,如果所属公司没有涉足大数据,并且自己再不主动了解一下大数据,出去都不好意思跟人打招呼。
大数据本身是一个宽泛的概念, 业界尚未给出统一的定义,大家都在尝试着定义大数据, 所以在大数据的诠释上就形成了百家争鸣的态势。随之而来的大数据时代、大数据思维、大数据技术、大数据应用、大数据服务等一系列的词汇加剧了大数据的理解难度,在被问及“大数据是什么”时,总有一种无力感。
今天,我尝试描述一下自己理解的大数据,供参考。
1、作为一个名词,大数据是记录集#
百度百科将“大数据”和“巨量数据集合(IT行业术语)”合并描述为:无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
1.1、数据资产
世界经济论坛2012年发布报告,说“大数据为新财富,价值堪比石油”,一下子让服务器上堆积的那些历史数据身价倍增起来,数据开始被郑重其事地视作资产进入了大家的视野。
关于资产,百度百科的定义为“任何公司、机构和个人拥有的任何具有商业或交换价值的东西”,数据以及数据产生的信息目前已经被公认为是企业的资产。企业通过数据资产,提供更好的产品和服务,降低成本,控制风险。
1.2、大数据的特征
大数据的特征经历了3V、4V到5V的演变。
2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇,是为3V:数量(Volume)、速度(Velocity)、多样性(Variety)。
在莱尼的理论基础上,IBM提出大数据的4V特征得到了业界的广泛认可,即:数量(Volume)、多样性(Variety)、速度(Velocity)、真实性(Veracity)。
国际数据公司 IDC 也定义了一套 4V特征: 数据类型繁多( Variety)、处理速度快( Velocity)、数据体量巨大( Volume)、数据价值( Value)。
阿姆斯特丹大学的 Yuri Demchenko 等人提出了大数据体系架构框架的 5V 特征: 数据类型繁多( Variety)、处理速度快( Velocity)、数据体量巨大( Volume)、数据价值( Value)、真实性( Veracity)。
以上是大数据的数据特征,描述了“巨量数据集合”的特征。
2、作为一个形容词,大数据引出了n个概念
很多人提及的大数据是一个形容词,但他省略了大数据后面那个被修饰的关键词。
2.1、大数据思维
维克托·尔耶·舍恩伯格在《大数据时代:生活、工作与思维的大变革》中指出“大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系”,【注重事物间的相关关系】可以作为大数据思维的关键特征之一。
大数据思维是一种跨域的、面向全样本的、数据导向的、认为历史数据可预测未来的思维方式,关于大数据思维的原理,《大数据行业人士必知10大数据思维原理》一文简单将其概括为10项原理:
- 数据核心原理
- 数据价值原理
- 全样本原理
- 关注效率原理
- 关注相关性原理
- 预测原理
- 信息找人原理
- 机器懂人原理
- 电子商务智能原理
- 定制产品原理
运用大数据思维,在看待问题、解决问题时就多了一个角度——大数据视角(哈,又多了一个概念)。
2.2、大数据技术
大数据技术的包括大数据采集技术,大数据存储、管理和处理技术,大数据分析和挖掘技术,以及大数据呈现和应用技术,这些技术可以表现为一种数据处理方法(并行计算),也可以表现为一种软件工具(Hadoop、Spark、Storm等)。
IT技术人员提及的大数据多数是指大数据技术,甚至更狭义地指代Hadoop,“某某最近在学习大数据”,最可能的情形是“某某在啃Hadoop技术文档”。
数据分析、数据挖掘、机器学习与大数据技术紧密相关,有些人认为它们应该独立于大数据技术(这些概念都早于大数据技术产生),也有人将它们纳入大数据技术的范畴(例:某机器学习算法的Spark实现),类似的还有以Redis、Kafka,个人认为无需纠结于概念的范围归属,可以将精力投在掌握具体技术的适用场景方面。
2.3、大数据应用场景
大数据应用场景一般对应于一个特定行业的具体问题,在数据规模不足够大、数据处理效率不足够高的时候,或者说在大数据(名词,巨量数据集合)和大数据技术之前,这些问题无法解决或者无法妥善解决,但虽然数据的持续积累和大数据技术的不断成熟,这些问题得以解决或者出现了解决的契机和研究方向。
- 在电力行业,基于电网运行和设备检测、监测、检修数据,可以在“电力设备监测预警”、“电力设备缺陷分析”、“电力设备寿命预测”方面开展分析和研究(这里出现了三个大数据应用场景 :D)。
- 在交通行业,通过在城市多处设置的传感器,我们能随时掌握在某个地方有多少辆汽车,车速是多少。有了这些数据就可以建立起模型进行分析,指导人们“优化出行计划避免交通拥堵”(这也是一个大数据应用场景)。
2.4、大数据+
先看看“互联网+”,百度百科显示:“互联网+”就是“互联网+各个传统行业”,但这并不是简单的两者相加,而是利用信息通信技术以及互联网平台,让互联网与传统行业进行深度融合,创造新的发展生态。
个人认为“大数据+”和“互联网+”简直是一样一样的,“大数据+”就是“大数据+各个传统行业”。以“大数据+医疗”为例,它以医疗行业的患者档案、临床操作、药品处方、诊疗方案等各类数据为基础,运用大数据技术逐步构建智慧化医疗服务体系,也可称为医疗大数据。
2.5、大数据服务
大数据服务是大数据产业链商业维度的概念。大数据产业链上包括大数据资源提供者、大数据技术提供者、大数据服务提供者三类公司,大数据服务是大数据服务提供者的价值体现,本质是“通过发掘隐藏在大数据中的价值,不断推动大数据产业链中各个环节的发展和成熟”。
大数据服务提供者有两种,一种是应用服务提供者,另一种是咨询服务提供者;当然,把大数据技术提供者称作技术服务提供者当也未尝不可。
3、大数据不仅仅是概念
中国工程院院士李德毅认为,云计算、大数据、人工智能是引领中国创新发展的原动力,如果将“互联网+”比作一只大鸟,大数据和云计算就是互补的两个翅膀,而人工智能则是鸟背上的乘客。
根据《2016年大数据交易白皮书》的有关数据显示,2015年我国大数据市场规模1692亿元,同比增长了63.07%,仍处于快速发展期,预计2020年市场总体规模将达到13626亿元,年复合增速将达到51.8%。
所以,每个IT人员都应该主动了解大数据,不仅仅是为了见面打招呼,它还会为我们带来某些实质性的收益。