前几天和一个读基因方向的研究生聊天,提起现在有些技术手段,通过我们的唾液便能查到你是属于哪种体质,易胖?易脱发?有较强的运动能力等等。这便是大数据上的应用,通过对比基因库里面的多种基因来进行一些判定。
近几年「大数据」这个词频繁被提起,尤其是网络和计算机能力的大幅提升,使得我们可以在每天产生的数以千亿计的数据中抽离出对我们有价值的数据样本,进而我们可以将注意力放在相关关系的发现和使用上,通过趋势分析现在预测未来,对人类的价值体系、知识体系和生活方式产生深远影响。
在日常生活中,若要找出相关关系,我们可用数学方法,但如果是因果关系的话,就会陷入各种假设之中,数据就显得不那么可行。所以,我们没必要一定要找出相关关系背后的原因,当我们知道“是什么”的时候,“为什么”其实没那么重要。
在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。
社交关系在过去一直被视作信息而存在,但从未被正式定为数据,直到Facebook“社交图谱”的出现,让人们能轻易记录以及分享他们零散的想法,从而使情绪数据化得以实现,把信息转化为对现在和将来的预测:我们很可能认识谁?或者你比大多数人更胜任哪一份工作?然后精准进行推送。
数据化代表人类认识的一个根本性转变,有了大数据的帮助,我们不会再将世界看作是一连串我们认为或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的。数据的基本用途为信息的收集和处理提供了依据,不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。这是经济学家所谓“非竞争性”的好处:个人的使用不会妨碍其他人的使用,而且信息不会像其他物质产品一样随着使用而有所损耗。
数据化是一种把现象转变为可制表分析的量化形式的过程。具体应用在文本、方位、沟通以及现象等方面的转化。文本方面的应用有电子书的翻译服务,方位的数据化则体现在地理范围的gps定位服务通过对沟通中关系数据的记录、发现、预测人们行为,以实现我们期待的不期而遇,另外通过对现象的个性化总结、排序,形成对应的个性化推荐。
数据化的价值在于创新、具体有再利用、重整、可扩展。尽管在数据使用过程中会有折旧,但其潜在价值依然重大。数据使用过程中不可避免会产生数据废气,也会带来更多的威胁,毕竟大数据的核心思想就是用规模剧增来改变现状。对于危害,不再过多阐述,在日常工作中大数据的用途则要善于搜集、整理、集中置于可制表分析的形式中,用数据和现象对我们的工作作出更相关精准的分析。