第一部分 大数据时代的思维变革
01|更多:不是随机样本,而是全体数据
02|更杂:不是精确性,而是混杂性
03|更好:不是因果关系,而是相关关系
第二部分 大数据时代的商业变革
04|数据化:一切解渴“量化”
执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的;剩下95%的非结构化数据都无法被利用。
允许不精确
小数据:减少错误、保证质量。
与各种混乱作斗争(随着数据的增加,错误率也会相应增加):
- 格式不一致(清洗数据)
- 萃取or处理数据
I.B.M、T.J.Watson Labs、International Business Machines IBM都可以用来指代IBM
对错误的包容会带给我们更多的好处。
摩尔定律:每块芯片上晶体管的数量每两年就会翻一倍。
大数据的简单算法比小数据的复杂算法更有效
【谷歌翻译系统】接受错误的数据
- 2006年,谷歌翻译,利用互联网。寻找官方的文件。
- 2012年,谷歌数据库涵盖60+语言。把英语作为中介语言。
谷歌语料库的内容来自于未经过滤的网页内容,所以会包含一些不完整的句子、拼写错误、愈发错误以及其他各种错误。BUT!!!谷歌语料库是布朗语料库的几百万倍大。
纷繁的数据越多越好
【麻省理工与通货紧缩预测软件】
- 登门拜访,打电话等,(滞后性、花费大)
- 通过一个软件在互联网上收集信息
混杂性、不是竭力避免,而是标准途径
新的数据库设计的诞生
【hadoop与visa的13分钟】
通过把大数据变成小模块。不过预设硬件可能会瘫痪,所以在内部建立了数据的副本。
- hadoop的输出结果没有关系型数据库输出结果那么精确。
- 不适合正规记账,但是当可以允许少量错误的时候它就非常实用。
折中:
- 默认自己不能使用更多的数据,所以不会去使用更多的数据。
2.数据的质量上。