十几年前毕业论文做web推荐,大概就是分析用户经常浏览的页面,找相似内容的推荐给用户。当时被问了一个问题,经常浏览的内容就是他当下最需要的吗?之前没看到过的是不是会更有价值?心里一直留了个疑问。这几年大数据蓬勃发展,最近也听到有“小数据”的概念冒出来,今天再把这个话题抛出来,大家一起思考一下。
大数据给世界编织了一副美丽的画面——万事万物皆可数据化,好像人类没能够变成全知全能的造物主,就是因为数据不够多、算法不够好(突然想起《人类简史》里说到人类一直有想成为神的欲望,也许是人类的本性作祟,呵呵,扯远了)。我的感觉,起码在社会大众层面,过度的商业宣传和客观科普的缺失,已经把这种新技术神话了、理想化了。“大”一定就好吗,从另外的视角看看,“大”有“大”的问题和“小”有“小”的好处 。
大数据理念下的野蛮生长
之前工作中经常会碰到一种场景:搞大数据嘛,没数据怎么搞,先把数据搞来再说,越多越好,堆到一起再想怎么用。这时各种商业上解决方案投其所好,可以搞数据集市、数据工厂、数据生态,有了数据再发动大家想怎么用。逻辑看似很清晰,但往往成效不明显,尤其是在考虑为了搞数据的不菲投入,有点像早些年先开发再治理的逻辑。“大”是有成本和代价的,不考虑投入产出、不考虑约束限制的野蛮式发展,长久来看难以实现可持续。
大数据应用下的信息“偏见”
就像开篇网页推荐的问题,现在各种网页系统基于行为数据的推荐,你会发现每天看到的信息类别日益雷同,你会越来越陷你熟悉的信息圈,如不察觉,甚至反过来会强化自我认知的边界。这种应用的思路扩展到生产和工作中,也会出现过度依赖相关性和经验性数据的倾向,看似客观数据其实带着“偏见”。相反,无论个人成长还是社会发展一直处在动态变化的过程中,一些看似没有统计意义的小规模数据,往往会起到不可忽视的影响。
大数据语境下的数据取舍
之前遇到一个搞了很多年大数据的客户在发愁,大量的历史数据怎么处理,不维护说不定那天还有用,维护吧成本很高,而且还不知道猴年马月能用一回,更让人纠结的是真到用的时候,由于采集口径、数据质量等原因还不一定能用上。理想化一点,是数据都留着,由于未来应用场景的不确定性,提前准备好所有的数据几乎是不现实的。所以如果扁平化的对待所有数据,管理和应用效率是很低的,而从业务价值角度,数据的价值并不是相同的,而且有些还有交叉性和替代性。有时反而克服数据匮乏的焦虑,需要做明确的取舍。要知道有些场景下用的时候再去采,或者干脆换方法去决策和处理,比起“泛滥性缺乏”可能更有效率。