关于企业大数据那些事

 关于企业大数据那些事



何为大数据

现在大数据比较火,但是到底什么是大数据。

有一个误区必须指出,大数据并不是指很多很多数据。

所以不是说存储了很多数据就是在搞大数据,因为“大数据”只是个简称,说全一点应该是“大数据挖掘”,没有经过挖掘的大数据只是没有开采出来的原油,一定用处也没有。

就如企业常常面对存储的海量数据发生的感叹,我们如何从数据的搬用工到数据的淘金者。



数据的搬运工

大数据的特性

百度百科对于大数据(Big Data)的定义为“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”从这里我们可以提炼出大数据的特性,也就常说的4个V(即Volume、Variety、Value、Velocity)。

一、是数据体量巨大(Volume)。截至目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB),而历史上全人类说过的所有的话的数据量大约是5EB(1EB=210PB)。当前,典型个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。

二、是数据类型繁多(Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

三、是价值密度低(Value)。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

四、是处理速度快(Velocity)。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。

数据挖掘的故事

本世纪初”啤酒与尿布”可以算是“数据挖掘”的代名词。啤酒与尿布,这两个风马牛不相及的东西如何与数据挖掘扯上关系?


1983年,当一般的零售商还在进行信息化建设的时候,沃尔玛已经开始于休斯公司合作,花费2400万美元发射了一颗人造卫星,此后先后投入6亿元建立起电脑与卫星系统,还发明了条形码、无线扫描器、计算机跟踪存货等技术。借助于整套的高科技网络,沃尔玛的各部门沟通、各业务流程可迅速、准确的运行,数据库系统很快积累了海量的经营数据,包括大量的顾客消费行为记录。一年一度的圣诞节要到了,沃尔玛按照惯例又一次筹划节日的营销策略。这一次他们使用了新的“购物篮分析”软件,对海量的顾客消费行为进行分析,一个意外发现让他们瞠目结舌,跟尿布一起购买最多的商品竟然是啤酒!

紧接着,沃尔玛派出市场调查人员和分析师对这一个结果进行深入研究,证实它揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年龄在25-35岁的年轻父亲在下班后经常要到超时去给婴儿买尿布,而他们30%-40%的人会顺手给自己买几瓶啤酒。

证实这样的发现是符合实际以后,沃尔玛立即采取行动,将卖场内原先相隔很远的妇婴用品区与酒类饮料区空间拉近,并定向调整这两个产品的价格和促销活动,结果是尿布与啤酒的销量双双大增。

以上的案例告诉我们,数据挖掘可以发掘埋藏在海量数据中有价值的信息。


数据挖掘

如何成为大数据企业?

从理论上来说,每个企业都可能拥有大数据,但是并非每个企业都能够成为大数据企业。

大数据因其体量之“大”而得名,然而体量并非大数据的唯一特征,甚至也不是大数据最为重要的特征。巨大的体量凸显的是技术需求。而对于管理者而言,刻意追求巨大体量的数据并不具有多少现实意义,大数据更重要的特征在于其多样化的来源和形态、持续快速的产生和演变,以及对深度分析能力的高度依赖。因此,企业对大数据的驾驭和掌控,其核心并不在于拥有多大规模的数据,而在于是否能够对来自于企业内外部多样化信息源的涌流数据进行敏捷持续的捕捉和整合,并通过深度分析开发其商务价值。



企业BI架构流程简述述

大数据的挖掘需要借助工具来进行开展,目前一些智能工厂初选的是开源的Pentaho,Pentaho是世界上最流行的开源商务智能软件,以工作流为核心的,强调面向解决方案而非工具组件的,基于java平台的商业智能(Business Intelligence,BI)套件BI,之所以说是套件是因为它包括一个web server平台和几个工具软件:报表,分析,图表,数据集成,数据挖掘等,可以说包括了商务智能的方方面面。它整合了多个开源项目,目标是和商业BI相抗衡。它偏向于与业务流程相结合的BI解决方案,侧重于大 中型企业应用。它允许商业分析人员或开发人员创建报表,仪表盘,分析模型,商业规则和BI流程。

整合并规划自身数据来源,通过Kettle的数据抽取、清洗和转换,再通过Cube模型建立,展示在PC浏览器、Moblie终端用户。



结束语:

在管理视角上,大数据既不是一种技术,也不是一种应用系统,而更应该是一种立足于企业内外部数据融合以提升管理效率、开拓价值创造模式的管理思维。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,417评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,921评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,850评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,945评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,069评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,188评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,239评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,994评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,409评论 1 304
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,735评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,898评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,578评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,205评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,916评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,156评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,722评论 2 363
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,781评论 2 351

推荐阅读更多精彩内容