【作者按:本文为2016/10/15晚在新生大学社群的公开分享,旨在和大家探讨个人对大数据的一点浅见。虽然专业知识和写作水平有限,但哪怕能帮到一个人亦会欣慰,同时也期待能得到更多反馈。】
** 1. 认知误区**
在日常生活和工作中,我发现很多人对大数据的理解存在如下两个误区 :
- 人云亦云
现在很多人,言必称大数据。可是,大数据这个说法本身非常模糊,不知道他们在说大数据时具体指什么。这让我想起许多年前在国内流行的另外一个概念:纳米,我相信你一定很耳熟。那会儿,随便逛个商场或者看个电视,你都会发现铺天盖地的打着纳米旗号的广告袭来:什么“纳米冰箱”,“纳米空调”,“纳米彩电”。。。 就好像纳米是能治百病的灵丹妙药,任何东西只要贴上“纳米”的标签就好使了,就升值了,就高大上了。
今天,很多人对待大数据的态度和纳米一样,人云亦云,自我忽悠,然后互相忽悠。
- 不知所云
当你问很多言必称大数据的人:大数据到底是什么?不知道大数据是什么?大数据是怎么用的?大数据到底对你的生活带来了哪些收益和影响呢?80%的人都会一脸懵逼,他们根本说不出所以然。当然,我不是说每个人都这样,但这样的人的确不少。
个人以为,实事求是的态度很有必要,理应推崇。
知之为知之,不知就知乎之。
不知道没关系,但如果硬是为了虚荣心去说大数据,为赋新词强说愁,这样的态度没有益处。
如果你真的觉得大数据这个东西非常好,既有趣也有用,那我们就卷起袖口,去搞懂细节,搞懂它的前世今生,乃至它未来的发展趋势。这样的态度既接地气,更能增加个人价值。
2. 数据分析
在和大家探讨真正的“大数据”之前,我们先聊聊数据分析。
数据分析实际上已经存在很久了,它根本不是什么新东西。
它不是什么新事物,也并不神秘,一点都不!
你会用Excel罢?Excel就是用来做数据分析的,千万不要小看它。而数据分析比Excel的历史还要早的多。
数据分析大致可分成四个层面:
首先,获得数据;
其次,从数据中提取信息;
再次,从信息中提炼出知识;
最后,通过知识发掘智慧。
总结下来就是:Data(数据)->Information(信息)->Knowledge(知识)->Wisdom(智慧)。
从另外一个角度来看,数据分析是技术和艺术的混合体:
技术:通过分析、挖掘等技术流程,以发现有用信息,知识和洞察为目的,进行数据收集,处理,清晰,过滤,以支持决策和发现规律
艺术:结合想象力、经验和意愿的综合因素的平衡
3. 大数据的通用特征
大数据目前没有一个通用的定义,个人理解的大数据具备如下几个特征:
首先,是巨大的数据量(Volume):
这一点大家的感受会比较直接。我们每天都会使用一些社交软件,如微信,微博或Facebook等等。新浪微博有好几亿的用户,每天都会产生上亿条的微博。而在日常生活中,中国的一个中型城市每个月智能电表产生的数据也可以达到几十亿条。整个2015年,移动客户终端产生的数据量是6300PB。PB是什么概念呢?大家知道GB,我们也知道TB,1TB等于1024G,而1PB等于1024个TB,这样大家就可以感受一下了。如今一个效果还比较清晰的视频大约是上G左右,那么1PB等于一百万个GB,整个2015年移动终端产生了几十亿G的数据。第二个特征是速度快(Velocity):
速度快体现在两个方面。
首先,大数据的增长速度特别快,在一秒内发生如下事件:
每秒google上产生54000条搜索,twitter上面产生7000条新tweet,youtube上面有12.5万次的视频播放,两万人在玩脸书。
其次,体现在处理速度快。
我们有个说法叫做一秒定律,在一秒钟之内要完成数据分析和处理。这种实时的数据分析可以让人快速反应和做决策。然后是时效性,一般我们称新鲜数据为热数据,它的指导意义会比较强,更加有说服力;而过期的冷数据,很多时候价值有限。大数据的第三个特征是多元化(Variety):
多元化又有几个层面。首先是形式上的多元化,例如很多人都会写微信公众号,微信公众号会包括好几种元素:文本,图片,音频,视频等。所以数据的形式是比较多元化的。其次是数据的存储格式的多元化,它包括结构化,半结构化和非结构化的数据。第三个多元化是指数据来源,数据可用来自移动终端/医院/多媒体教室,或基因产生的生物数据,或气象雷达产生的天气数据。大数据的另一个特征是价值密度低(Value):
举例来说,比如我曾在朋友圈转过一个李笑来给和菜头写的推广文章,宣传后者的得到专栏《槽边往事》,笑来在文中打趣称这是草榴往事。于是,转帖之后朋友圈很多跟帖回了1024这个数字。当时我并不知道这个1024是什么意思,但是看到许多人都在回复,就google了一下。这才发现,1024是草榴这个知名网站上老司机的接头暗号,真是涨姿势啊,感谢大数据。所以说,大数据里面,单条数据价值是很低的,你不知道它在说什么。但是有很多条类似数据出现之后,就呈现出了一种特征,或一种趋势。这其实从大数据的统计学意义来看就很好理解了。
以上几条,又称大数据的4V特征。
4. 大数据的用途
那么,大数据有什么用呢?其实有很多著名的例子,如Alphago干掉了韩国殿堂级棋手李世石,当然,这样的例子已经烂大街了。
从我个人而言,我会分享一个亚马逊的例子。我是亚马逊的资深用户,用了八年多了,所以它有我很多的消费行为数据,它知道我的购物的爱好、特征和规律。这里有一个截图:
当我登录亚马逊账户之后,它的推荐页面就是上面这样。这个页面上展示的商品就是它根据我之前买过的一些商品,通过推荐算法猜测我喜欢什么种类的商品,还会买什么商品。总之就是通过已买商品的各个特征去给你做推荐。
另外,大数据还可以用来找男女朋友。这里也有一个真实的故事:大概在前几年,美国的加州大学洛杉矶分校(UCLA)有个数学系的博士生,大龄单身宅男,就为找女朋友的事情发愁。但他是个极客,就想办法写了一个程序(爬虫),爬虫里面设定了许多符合他个人喜好的规则,然后用这个爬虫到一些婚恋网站上去爬取目标对象。这样就找到一些符合他喜好的目标对象,同时,在这个过程中自然排除掉了很多不符合他设定参数的目标。通过和筛选后的目标对象约会,最后他果然找到一个非常合适的女朋友,然后快乐地在一起。
大数据的应用实例还有很多,曾经在2012年在纽约时报上登过一篇报道叫《大公司如何窃取你的秘密?》,文中一个例子就是关于Target超市的大数据应用(美国一家超大规模的连锁超市)。报道称Target给明尼苏达州一户人家的女儿寄婴儿用品的优惠券,但是这个女孩还是高中生。他爸爸看到优惠券后非常震怒,认为有诱导未成年人怀孕的嫌疑,就去找当地超市理论。当时超市的经理比较诚恳,一脸懵逼地给顾客道歉。后来,这个父亲却主动打电话给超市过来道歉,说回家和女儿交流后发现她真的怀孕了。
剧情180度大反转!
这到底是怎么回事?原来,是Target超市的数据部门开发的怀孕预测模型,根据算法结合购物记录发现这个女孩极有可能怀孕。所以,在得到这样一个判断后,他们的营销部门就给这样的潜在的目标客户精准推送母婴商品的优惠券。这事听起来还是蛮可怕的,大数据虽然没见过你,但它可能对你了如指掌,知道你是什么样的人,家住哪,收入什么水平,开什么样的车,穿什么衣服,抽什么烟等等。
大数据甚至还可以做舆情监督和民意调查。比如说,微信在2016年就做了一个大数据分析,推测全国人民的心情,最后的结论是,每逢节日大家的心情就特别好,其中中秋和春节的心情格外好;年轻人相对更多愁善感,老年人反而更乐观开朗阳光,很有意思。
根据上面的例子,我们对大数据的用途做一个抽象和总结。以上的例子告诉我们,大数据可以用来从已知到未知,就是说根据手上掌握的一些已知的信息可以推测出未知的规律和趋势,就像亚马逊猜我喜欢购买的商品,或者像Target推测高中生已经怀孕了,或者像UCLA博士生通过写程序找到女朋友。这些都是从已知到未知的推理。
大数据另外一个用途,就是可以纠正错觉或错误认知。因为,真实的原始数据是不会撒谎的,这里面包含了许多信息,甚至一些潜在的反常识的东西。就以我曾经做过的一个分析《顶级风投的宿命》为例。因为之前有过创业经历,个人会对投融资比较敏感。而当时创投界有所谓的风口论,比如O2O、生鲜电商等,这些方向的互联网公司特别容易拿到融资。那我在做完相关的数据分析之后发现:
真正一流的投资机构从不会赌所谓的风口,他们会坚持去投资一些商业本质更清晰的的公司和业务模式,像电子商务、对企业的服务、文化娱乐等方向。
而这个认识是在我做数据分析之前完全不知道的,可以说颠覆了我此前的认知。进一步,我之前对风口论的认知就是错觉,而这个错觉就被数据分析很好地推翻了。所以,我认为大数据的第二个功能就是纠正错觉。
大数据分析确实有些必备的知识集合,这里有幅来自IBM研究院的图,阐明了数据科学的必备知识领域。