大数据是近几年出现的热词,现在已经是人人知道大数据,人人离不开大数据,任何机构都想搞大数据,任何行业也搞大数据,实际上大数据技术在上世纪八十年代就已经很成熟,而且早就开始应用在航天、水利等大型数据产生的场景,现在开始热炒只不过是由于随着信息化深入人的生活,获取信息的手段、获取到的范围都大幅度增长而进入了老百姓的生活,这一点在人口量巨大、世界持有手机数量最多,互联网用户最多、迫切需要互联网来进行行业洗牌的中国尤为明显,经过几年的发展,一些机构个人已经在大数据方面积累了经验,一批应用也已经开始落地,探索后完成了“初体验”,但我们还是看到,很多机构的应用停留在初步阶段,观望阶段,好看不实用阶段,今天我们来看看一个机构做大数据需要哪些必要或者可选的条件:
一、确实够“大”的数据。大数据之所以称之为大数据是因为很“大”的数据,这是起因,这也是能够实现有质量有深度挖掘的必要条件,大数据要有来源较广的数据,要有丰富的数据格式,要有大频率的数据产生节奏,数据量小了只能停留在统计,无法实现深度的挖掘,得不到真正想要的信息或者想要的规律很容易被人轻易发现而失去大数据的建设必要。
二、适量的部门数据整合且尽可能保证数据质量。数据量不光需要本部门产生的常见的业务数据,而且还需要整合本部门整个数据产生阶段的其他数据,整合其他协同业务部门的数据,规律甚至可能隐藏在非主要业务数据当中。当然,数据整合很可能涉及到行业数据壁垒的问题,关键的数据你能否拿到,如果拿不到能不能抓取到或者是用其他数据替代就是部门能力的问题。但数据量并非越大越好,大量数据的存储必然是大问题,造成成本不说甚至影响到性能负载。所以需要在数据量和自身信息化能力之间做一个平衡。光有量不行,数据质量是数据库的生命线,需要在数据产生阶段进行质量控制,其中,标准统一且属地控制、强化考核、源头控制防范、数据对比是解决数据质量的有效途径。
三、有适合本行业的知识库积累。大数据需要行业只是积累来挖掘,否则只能是停留在算法层次,无法应用,更别提指导业务。数据挖掘人员或者大数据业务提供商必须对该行业业务进行深挖,甚至比业务使用人员更懂业务才行,因为就统计分析来讲,一类是预设性结果,一类是非预设性结果,预设性结果一般是常识性或者业务人员熟知的,只需要挖掘技术进行量化的分析,在程度上,比例上得到掌握。比如我们都知道共享单车出现后普通自行车销售的商家都大幅减少了,减少的程度怎么样?分析经营范围含有自行车销售的企业退出情况就知道了;如果知道一个企业的纳税、金融、注册、股东的状况,了解这个企业就很容易,以往做到这点几乎不可能,但现在整合了各个部门的数据后变得很轻松,方便了监管人员和社会大众监督。而另一类挖掘技术是非预设性结果,这类知识并非传统知识,如:地区工商注册资金和地区GDP之间存在关系吗?通过地区所有经济体的注册资本加和和GDP统计结果分析后发现存在一个线性关系,还有有人在欧洲杯期间发现比赛时女性购物的量大幅增加,从而在比赛开始前提高女性必需品的供货量和针对女性的促销活动而大赚。。。。类似这些都需要技术人员对业务的熟悉,对社会痛点、问题的感知才能得到有意义的结果。
四、建设内容及系统定位问题。大数据建设不可能一蹴而就,往往是初期先上一些简单的,好实现的分析内容,或者围绕目前的机构业务痛点先做,比如做销售的需要精准找出自己的目标客户,企业监管部门急需要找出疑似问题企业。
其次,大数据收集不同来源的数据,不可避免的涉及面广,肯定带来挖掘的信息不可避免的面宽,甚至得到宏观的挖掘内容,涉及其他部门的结论甚至是其核心业务,一方面这些挖掘内容是否能够用上,另一方面甚至会触及有些部门的“隐私”和利益。如舆情大数据很容易从微博和核心网站的词条点击量中得出群众关心的某些话题,这些话题是不适合公开讨论的。
五、展示及使用问题。挖掘是里子,展示是面子。有好的挖掘结果,同样合理的展示也很关键,选择什么样的展示图?饼图?云图?祖谱图?都需要下一番功夫或者根据不同的情景进行调整,展示的平台也是关键的,这让别人了解你的工作,是在大数据展示中心的大屏幕还是结论在网站的公开或者在其他媒体进行静态公开展示,这些都依照现实进行选择,也可以动态进行展示,一些简单的展示可以在网站及展示中心进行互动化展示,让使用者自己选择项目。
使用方面。大数据有时候很精准,有时候结论和现实是互相补充的,如:某时间段有多少人使用共享单车骑行距离超过10km以上,这很精准,但违法企业的疑似信息挖掘出后有时候不能立即判定企业违法,需要现实里的跟进,这时候大数据是辅助,单凭传统的企业检查或者企业信息监督很难实现企业监督有效,大数据对企业监督有很好的效果,迅速锁定疑似违规企业,然后跟进关注就有很好的效果,挖掘和现实里的证据找寻相得益彰。由于大数据的挖掘结论不好在法律层面定论,所以只是辅助手段。
六、立项及成本问题。大数据项目像其他的信息化项目一样,立项和资金来源等都需要关注,关于立项,要看是哪个部门要求建设:
如果是上级部门,那很有可能是有专项的资金支持,甚至还有专用的硬件设备支持,或者是专项资金,这类方式会得到支持关注还减轻资金压力。
如果是自身需要建设,自身提出,那建设的具体项目上就需要下点功夫,先紧着叫得响的、能实际应用的立马能见效的、或者本级领导感兴趣的分析项先提出来,形成报告,这样容易批准,这类可能需要自身单位掏的钱多,还需要尽可能争取。
如果还是不批准,那可以把这个项目以另外一个必建项目打包在一起,作为其中的一个模块功能来进行申报,等到实现后请上级领导来看或者产生效应后再进行下一步的建设申报就有大的可能性会批准。
七、最后,分享一些大数据硬软件技术方面的心得:
(一)尽量使用“云平台”。可购买一体化负载均衡的云平台,实现资源池的有效弹性伸缩,业务稳定性更好。而且云平台可以实时展现各系统当前的运行情况,做到一目了然。同时,网络安全方面使用云防护服务,而不是仅仅停留在硬件设备的单一购买叠加。
(二)如果可行,尽量不要使用ORACLE等集中性的结构化数据库,使用国产数据库,虽然性能不比国外高水平数据库,但可以搭建分布式集群,一方面大幅度降低成本,另一方面这种方式实现了国产化,国产化对于数据安全起到很好的作用。
------------------------
以上是本人在大数据建设过程中的一点经验,从数据到内容再到开发展示甚至还有系统硬软件等方面的一些知识,进行总结提炼,但限于个人水平和篇幅,很多方面并不全面深入,一些其他领域本人并不很了解,难免有些偏颇,不过还是希望给大家带来一些帮助,整理思路的同时少走弯路。