大数据应用是互联网时代先进生产力,如何将这个生产力与实际业务结合是一个非常富有创新性的一项工作。
大数据时代里数据成为企业的核心竞争力,掌握了数据的企业将成为行业的中心,行业大脑。好比工业时代的大规模集约式生产,似秋风扫落叶般淘汰了小农时代的手工作坊生产。大数据的应用将把人脑发挥到极致,将可以做以前做不到,不敢想象的事情,工作必然没有死角盲区。
大数据建设的第一步是确立收集哪些数据。数据源需要的是真实有效的,假数据或者被人为处理过的数据都是大数据分析的老鼠屎,因而在数据清洗处理阶段要坚决把这些数据丢弃。
这些数据就是我们做饭的食材,食材很多丰富,为了便于后续做菜。有道很重要的工序就是把这些数据分门别类的存放好。胡椒放一起,葱放一起,蒜放一起,猪肉放一起,牛肉放一起等。
食材准备好了,就要准备菜单,粤菜的,东北菜,川菜,上海本帮菜,还是秘制配方。这一个个菜单就是模型。
来客人了,针对不同口味的客人准备不同的菜。这客人就是业务需求。
整个大数据应用的过程就像是一家高档饭店。从食材采购,分类整理,大厨,到点菜上桌。从食材的碰撞翻炒中创新出新的味道。
从技术实现上,从数据获取的起点,涉及如何与外部数据对接,实现数据的实时传递导入,就像食材基地定时完成配送。这部分涉及到网络爬虫,现有系统对接,外部数据传送等。这个阶段需要完成的工作主要有:铺设专用通道和放置网闸,爬虫服务,以及与现有系统所有方沟通开放接口。
各类不同数据过来以后,就需要对数据进行清洗分类,把数据分为各种不同的纬度,数据清晰是一个非常耗费时间的一项工作。这块需要和第三方公司合作,使用清洗工具来完成。当然,数据清晰完后如何存放,这和后续软件架构有直接关系,使用什么数据仓库。
数据准备好后,就可以建立分析模型,第三方软件公司就可以根据模型转化为代码模型。
最后数据分析出来后就是展示问题,如何建立大厅,座椅和大屏。
从上面可以看出有些工作可以先行来展,比如设备采购,专用通道铺设,爬虫服务器和数据清洗等工作。
大数据应用是改变现有玩法的利器,是先进生产力,只有掌握大数据技术才能永立潮头,始终走在前面。