这几年一直流行“大数据”的概念,几乎让所有生活在城市的人都知道了这个概念。至于农村为什么没有,可能是由于农村的科技水平太低,很多新的概念传导比较慢吧。
百度百科如此定义大数据:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
照此定义,大数据其实规模上太大,以至于常规的技术模式无法处理,也无法据此做出决策。在这几年全球在大数据处理方面产生了很多新的公司,但我我觉得主要分为以下几种:大数据采集,存储,分析,应用。而目前似乎一些公司在大数据应用上已经尝试,我们也能感受到。比如如果我们在京东或天猫上买了某样商品,然后在我们下次进入页面时,我们就能看到很多与我们之前购买商品相关联的商品推荐,包含竞争品、替代品、互补品等。而这个在5年前是没有的。这是惊喜,也还是惊讶,也是惊恐。恐在什么地方——我们还有隐私吗?据说国外的一些电商网站,已经能根据收集到的你的消费数据,分析出你的消费习惯和消费能力,并据此对你实行歧视定价。即同样一张机票,其他人可能500元买的到,而你由于以前买过两次头等舱,可能对你的价格是最低700元。若果真如此,岂不是太恐怖了。
在分析和应用上能做到此类水平,可能需要庞大的数据库系统,以及很牛逼的技术人员,运用各种算法去分析顾客的消费行为、消费习惯、消费数据,再结合其从其他渠道收集到的个人信息,多相结合,分析推演出来。其实,数据的存储,只要有足够的存储设备、存储空间,都不是问题,或许云也是一种很好的数据存储共享方式。而分析和应用也未必非要大公司才能玩,甚至我们个人也可以根据自己掌握的数据进行一定程度的分析和应用(比如我很勤快地存档了公司自2015年11月开始至今的每日营业业绩数据,我就能通过同比一段时间的营业业绩,了解到公司目前的市场开拓状况如何,是趋好还是趋差)。但是,然而,我们很容易忽视的是数据的采集:采集的手段、采集的时长、采集的数据的准确性、采集的思路是否合理等。
我们不妨去想一个最基本的问题:大数据是否会自动产生?有的人说,数据是客观的 ,不管你在于不在,它都在那里。看起来没错,但是数据不会自动跑到你的w碗里来,需要你发挥主动性去采集´,而你在做出这个决定时是主观的,容易受到他人或外部环境的影响。比如你那天恰好你老婆与你吵架了,你心情不佳,于是就用了比平时更加简单的一种方法去收集的数据,但恰恰是这次简单,让你的数据出现了差错。还有就是目前很多电商做大数据分析时,由于是通过电脑和算法自动收集的,就容易产生误差或误会。比如某天我中了一张十万的彩票,我想反正是白来的,于是就用这笔钱在网上买了两个LV包,电脑有可能就会推荐你奢侈品关联的商品。因为他大概无法判断你购买商品的随机性和不确定性,以及是否是你理性做出的决定,还是你老婆用你的账号买的。
我决不否定大数据的价值,而且我自己也在尝试收集自己能收集到的数据,并愿意和别人共享一部分数据,并在开始使用腾讯云盘为别人提供方便。我z只是觉得我们要考虑清楚:我为什么要收集这些数据,我如何s收集最有效率,我收集的方法是否合理,数据源是否准确。只要有一部分错了那么整个的分析就会错 ,应用也会出错。