当大数据充斥各种场合,从马云到释昭慧都侃侃而谈,你还能不懂什么是大数据吗?你也许已经听过无数的大数据神话,但对于大数据仍停留在一知半解阶段,公子义为整理为梳理什么才是真正的大数据。
大数据是什么?
大数据(Big Data)又被称为巨量资料,其概念其实就是过去10年广泛用于企业内部的资料分析、商业智慧(Business Intelligence)和统计应用之大成。但大数据现在不只是资料处理工具,更是一种企业思维和商业模式,因为资料量急速成长、储存设备成本下降、软件技术进化和云端环境成熟等种种客观条件就位,方才让资料分析从过去的洞悉历史进化到预测未来,甚至是破旧立新,开创从所未见的商业模式。
一般而言,大数据的定义是Volume(容量)、Velocity(速度)和Variety(多样性),但也有人另外加上Veracity(真实性)和Value(价值)两个V。但其实不论是几V,大数据的资料特质和传统资料最大的不同是,资料来源多元、种类繁多,大多是非结构化资料,而且更新速度非常快,导致资料量大增。而要用大数据创造价值,不得不注意数据的真实性。
为什么需要大数据?
因为当从人到机器都已经被数据解构,数据不仅仅是欧巴马口中的石油或是黄金,它更是血液,贯穿每个人一生中每个生命阶段。这并非危言耸听,更不是科幻电影,而是正在逐步成真的现实。
大数据的应用广泛
对企业而言,大数据可望提升服务质量、增加管理效率、帮助决策和创造商业模式;对一般民众而言,大数据是另一个自我,它可能比本人更了解本人,为你预先解决每个未知,当一切都开始数据化,你能够不需要数据吗?
大数据一定要很大吗?
虽然大数据的狭义定义是,资料量要在100TB到PB之间,但其实绝大多数的企业,都不符合这个标准,大企业如eBay、亚马逊或AT&T或许符合大数据的标准。但其实资料量只是大数据的其中一个面向,大数据揭示的是一种「资料经济」的精神,而非只是「大」。
「大,是大数据中最无趣的部分。」公子义认为,企业真正要寻找的是非传统的、而且未曾被挖掘过的资料,并且从这些资料中去提炼出价值,这才是对大数据应有的正确认知,而非只是执着于资料大小,只要能从看似毫无意义的数据矿坑中挖掘出金矿,有谁会在意那座矿坑原本是大得像座山还是小得像狗屋呢?和沛科技创办人翟本乔就指出,大数据这个名字容易让人误导,因为真正重要的其实是大智慧。大数据不只是说资料量有多大,速度快和资料量大都可以用技术轻易解决,但种类(Variety)比较需要智慧。
没有大数据就不能用大数据吗?
非也,建置大数据架构与环境的确所费不赀,一般中小企业通常无法轻易投入巨额成本,但大数据时代的精神在于如何妥善利用既有或非传统资料,从中挖掘出新商机,因此即使是中小企业甚或者是新创企业,都能在大数据时代用「大数据」。
数据应该如何建立?
就技术面来说,现在有许多业者开始提供建置成本较低的大数据处理工具和云端系统,有些甚至跟App一样,只要根据自身需求挑选需要购买的功能即可,例如科智提供的工业化数据管理工具即为一例。另一方面,很多时候中小企业其实不需要建设大数据系统。公子义认为,在绝大多数情况下,大数据项目其实不需要建置Hadoop系统,先用小量资料去验证一个概念,是否能将资料转换成商业机会,再来决定要不要建置大数据的作业环境。
大数据领域权威麦尔苟伯格(Viktor Mayer-Schönberger)在《大数据》一书中便提及,大公司有巨量资料的规模优势,但小公司有成本及创新上的优势,小公司因为速度够快、灵活度高,就算维持小规模,还是能够蓬勃发展。
要怎么开始进行大数据项目?
第一步设置专门统筹大数据项目的部门和职衔,而且层级越高越好,企业领导人必须足够正视大数据的力量,才能带动整个组织重视数据的文化。Etu负责人蒋居裕便指出,大数据其实是管理问题,而非技术问题,缺少跨部门协作,大数据项目很难有个美好的开始。
第二步,切勿陷入大数据迷思,与其急着想用数据变现,不如先回头看看自己企业内部的问题为何,先定义问题,再试图用数据找解方。阿里巴巴集团副总裁车品觉建议,与其整天想着大数据,不如先整顿自己企业内部的数据,很多时候光是企业内部的数据就问题丛生,不同部门之间的数据无法兼容,「整个数据在一个中小企业里面也是四分五裂,在这个地方没做好的情况下,居然说你想用大数据,其实是有点难以理解。」
大数据从哪来?
任何地方。随着物联网兴起,任何以前不可能产生资料的东西或地方都可能「资料化」。公子义认为大数据的发展可以分成三阶段,正说明了大数据的来源多样化:.com时期、社群网络时期和物联网时期。早在2000年初网络热潮兴起,人们就已经开始研究log资料,搜集使用者的cookie和搜寻行为等。而社群网络如Facebook或Twitter将人们的互动关系数据化,这些社群数据创造了大量的商业价值。而第三阶段物联网时期,可能是最有趣的阶段,无论是机器还是人都开始被数据解构,数据可能来自手表、鞋垫甚至皮带,这些物联网数据将是接下来重要的数据分析对象。
大数据有什么风险?
传统商业分析会有的风险,大数据也都会有,这并非大数据才有的问题,「个资安全问题」一直都存在,只是随着资料来源越来越多且资料量越来越大,资安问题更显迫切罢了。市场研究机构Gartner研究副总裁布莱恩(Brian Prentice)指出,大数据本身并没有资安问题,问题在企业应用资料的方式,Gartner预测2018年,企业违反商业伦理的案件中,有近50%都来自不当的大数据应用。
另一值得关切的是大数据可能带来的「资料独裁问题」,根据大数据领域权威麦尔苟伯格(Viktor Mayer-Schönberger)的说法,资料独裁指的是任由资料来管控我们,盲目受到分析结果的制约,导致滥用或误用资料。例如根据数据分析将人群分类,其实有可能会把个体给标签化,甚至污名化某些族群,想象未来若我们用数据预先打击犯罪,那会是什么情景?
公子义【微信号gongzi348】:4年心理学,80后,90后心理研究专家,9年大数据研究者,专注于移动互联网,大数据究狂热爱好者,热爱写作。未经许可,严禁转载,违者追究法律责任。