最近想必都被马云的一句“浙江女生胸最小”给震惊了,但仔细一想又觉得惶恐。马云究竟还知道多少不为人知的事情,或者说我们究竟暴露了多少密码在互联网上。记得之前和一位前辈讨论互联网大数据的时候,有一句话印象很深刻:在互联网大数据面前,我们都处于裸奔的状态,没有任何密码。
一、大数据是什么
百度百科上的解释是“指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。”这个解释明显太过于学术化,但有一个概念是可以确定的,数据量大,且无法直接从这些数据中获取的某些结论的数据。
其实数据这个概念并不新颖,从计算机诞生的时候开始,数据一词便一直被运用,然而在最初的阶段,数据只是起到一个存储信息的作用。而如今,我们甚至可以从大量的数据中获取任何的蛛丝马迹。
二、数据挖掘
根据用户的数据挖掘出一些有用的规律进行决策,数据挖掘就是通过属性筛选、聚类算法、关联分析、回归算法等方法,获取变量与变量之间的联系,以及单个变量的发展趋势预测。
那么数据挖掘能具体获得哪些信息?比如“喜欢买啤酒的人还容易顺手买个纸尿裤”,“白羊座的人比较喜欢购买家具”,“根据往年双十一的消费趋势,可以预测今年双十一的某商品销量会持续走高”......这就不难理解,根据淘宝的大量消费数据,将省份和bra联系在一起了。
三、用户画像
在大量数据面前,我们可以做到比用户本身更了解用户,从而为用户提供更人性化、更周到的服务。
要精确的得到用户画像,我们需要多维的数据来支撑。比如某电商平台的用户,我们在获得一个用户的性别、年龄等基本信息之后,还应从大量数据和购买记录中获得用户的购买喜好(包括物品种类、价格区间、购买地区等)、消费习惯、消费场景等。综合各个信息,我们很容易就得出具体某个用户的画像,这就比较容易理解某宝的“猜你喜欢”这一功能为何能做的如此出神入化。
当然,这些用户画像不仅仅只适用于电商行业,上面只是拿电商举例。用户画像在其他行业也有着广泛的运用,比如饿了么or美团,会根据你的购买记录将购买过的店铺进行排序靠前操作,再比如简书也会根据所看过的文章类别进行推荐相关的文章。但综合来说,还是在电商中运用最多,毕竟这直接关乎到商家的利润。
四、总结
说了这么些,感觉也不是很完善,以上也只是冰山一角。对于一个网虫来说,要定位出这个人的各类信息绝非不可能。数据的充分利用,也能让我们利益最大化,当然也有其弊端,就不一一叙述了。
作者:储美娟 一个每天愉快上班的产品小白~
欢迎沟通交流!