关于企业大数据那些事
何为大数据
现在大数据比较火,但是到底什么是大数据。
有一个误区必须指出,大数据并不是指很多很多数据。
所以不是说存储了很多数据就是在搞大数据,因为“大数据”只是个简称,说全一点应该是“大数据挖掘”,没有经过挖掘的大数据只是没有开采出来的原油,一定用处也没有。
就如企业常常面对存储的海量数据发生的感叹,我们如何从数据的搬用工到数据的淘金者。
数据的搬运工
大数据的特性
百度百科对于大数据(Big Data)的定义为“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”从这里我们可以提炼出大数据的特性,也就常说的4个V(即Volume、Variety、Value、Velocity)。
一、是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二、是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
三、是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。
四、是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
数据挖掘的故事
本世纪初”啤酒与尿布”可以算是“数据挖掘”的代名词。啤酒与尿布,这两个风马牛不相及的东西如何与数据挖掘扯上关系?
1983年,当一般的零售商还在进行信息化建设的时候,沃尔玛已经开始于休斯公司合作,花费2400万美元发射了一颗人造卫星,此后先后投入6亿元建立起电脑与卫星系统,还发明了条形码、无线扫描器、计算机跟踪存货等技术。借助于整套的高科技网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。一年一度的圣诞节要到了,沃尔玛按照惯例又一次筹划节日的营销策略。这一次他们使用了新的“购物篮分析”软件,对海量的顾客消费行为进行分析,一个意外发现让他们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!
紧接着,沃尔玛派出市场调查人员和分析师对这一个结果进行深入研究,证实它揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年龄在25-35岁的年轻父亲在下班后经常要到超时去给婴儿买尿布,而他们30%-40%的人会顺手给自己买几瓶啤酒。
证实这样的发现是符合实际以后,沃尔玛立即采取行动,将卖场内原先相隔很远的妇婴用品区与酒类饮料区空间拉近,并定向调整这两个产品的价格和促销活动,结果是尿布与啤酒的销量双双大增。
以上的案例告诉我们,数据挖掘可以发掘埋藏在海量数据中有价值的信息。
数据挖掘
如何成为大数据企业?
从理论上来说,每个企业都可能拥有大数据,但是并非每个企业都能够成为大数据企业。
大数据因其体量之“大”而得名,然而体量并非大数据的唯一特征,甚至也不是大数据最为重要的特征。巨大的体量凸显的是技术需求。而对于管理者而言,刻意追求巨大体量的数据并不具有多少现实意义,大数据更重要的特征在于其多样化的来源和形态、持续快速的产生和演变,以及对深度分析能力的高度依赖。因此,企业对大数据的驾驭和掌控,其核心并不在于拥有多大规模的数据,而在于是否能够对来自于企业内外部多样化信息源的涌流数据进行敏捷持续的捕捉和整合,并通过深度分析开发其商务价值。
企业BI架构流程简述述
大数据的挖掘需要借助工具来进行开展,目前一些智能工厂初选的是开源的Pentaho,Pentaho是世界上最流行的开源商务智能软件,以工作流为核心的,强调面向解决方案而非工具组件的,基于java平台的商业智能(Business Intelligence,BI)套件BI,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。它整合了多个开源项目,目标是和商业BI相抗衡。它偏向于与业务流程相结合的BI解决方案,侧重于大 中型企业应用。它允许商业分析人员或开发人员创建报表,仪表盘,分析模型,商业规则和BI流程。
整合并规划自身数据来源,通过Kettle的数据抽取、清洗和转换,再通过Cube模型建立,展示在PC浏览器、Moblie终端用户。
结束语:
在管理视角上,大数据既不是一种技术,也不是一种应用系统,而更应该是一种立足于企业内外部数据融合以提升管理效率、开拓价值创造模式的管理思维。