如今人人都讲大数据,但是大数据就是写写python、画画图表,做做分析报告么。或者说各种数据分析的思路到底是做什么的,这本2012的书《爆发:大数据时代的预见未来的新思维》给了很多场景和思想探索,可以说是基于真正的随机概率的世界来重新建立我们的大数据时代的世界观认识方法。
如今的各种科技产品,特别是互联网产品、移动产品都是在无数的科学家工程师的积累下形成的,随着各种终端也介入采集数据和联通,那么大数据的爆发是时间问题,欧美的作者很好的预见了大数据爆发的时代,也就是我们所讲的移动互联、万物互联,而且他们探索分析了非常多日常场景,从一张钞票的传播、到家里换尿布的视频、总之我们的任何信息都可能被记录。而在主要的十二种场景下,作者更多从数据场景、概率思维和上帝视角上预示了未来很多可以预测的事件。
这更多是讲思维一种和大家探讨的文章,没有什么具体的算法或是技术,但可以真正让我们理解大数据的应用,大数据的思维的行程。
在无数个显微镜下现形
扩散理论
这个就是非常贴合现在的情景,讲到了场景“从一个钞票预测疾病的传播”,当时或者说即使现在也很多国家在用钞票,没有用手机无接触支付,疾病的传播势必更加快速,一张钞票走过了哪些的地方,就会带来非常多的传播可能,如果可以追踪这张钞票的旅行路径,也可以追溯使用者的旅行路径。当然不只是钞票,包括整个旅行可能的接触都有利于预测疾病扩散,比如食物供应链等也是类似,可以有助卫生部门预测和防控。
爆发洞察
洞察这种类似的可用途径,比如企业对于供应链物流的监控、政府部门抓捕罪犯和恐怖分子,我们平时出行或是打车也会把旅行路径大致告诉家人等,以防万一,当然还有无数的创业者期望得到消费者的行为洞察,从而打造新的谷歌。
当然没人喜欢自己的开房记录被公布于众,所以也带来数据防泄密的问题,避免各种不法分子的企图。
15 分钟,36 分钟,还是 36 小时
转化模型
这个也是很好的洞察预见,美国是YouTube、聚友网、维基百科、facebook等,中国则相应出现抖音、快手还有各种自媒体、新媒体直播平台,艺术大师安迪·沃霍尔(Andy Warhol)的名言:“在未来,每个人都有成名 15 分钟的机会”,现在看来比他在 1968 年初次说出时要更加接近现实。
各种终端平台给了大家机会,技术也带来了各种转化模式,只要你可以吸引大家,就可以有15分钟的成名机会,当然现在可能就是15秒就可以,当然也会很快过去,因为还有别人的新爆发的热点,但你还是可以继续新的机会。
爆发洞察
这些技术使得很多内容可以数据化和展示,那么内容来自哪里,如何更好让人接受,我们该提升哪些就是可以思考的方向,当然还有识别和推荐等技术的思考
是接受绝望,还是追随希望
量子力学
我们的全球天气预报系统在过去五年里对未来 3 天的天气预测的准确度已经达到了 95%。很多基于大数据的预测十分高了,但是还有时候天气预报也会不准,德克预测68天所用的钞票的旅行路线,也无法很好分析,这就考虑很多不确定性的影响因素,所用是量子力学,但这里只是一个借鉴,并没有做过多物理学解释,但目的是说,还有很多测不到的数据其实隐藏的不确定性,就像股票预测一样,不能只用单一的股市时间序列数据,所以股票预测是非常难。
爆发洞察
科技进步给我们留下了一个难题:我们能否为未来行为中的不可预知的因素提供数学验证?鉴于我们身体中的每个原子和分子都是遵守量子力学规律的,是不是说我们人类从内部就无法预知?
上帝从不掷骰子
泊松分布
这是个概率经典的分布了额,就是二项分布,你丢骰子正反面的概率都是一样,泊松的计算在哲学层面上存在一个深层假说:他荷载取值,假设人类行为是随机的,将事情简化了。不管你是最聪明的智者,还是最愚笨的傻瓜;不管你是法官,还是犯人;不管你是怀疑论者,还是迷信的信徒,一旦坐上陪审席,我们知道的只是你做出正确裁决的概率只有 90%。这也就是说,泊松将不可预测性和偶然性等同而语了。
爆发洞察
这似乎是个悖论:如果不可预测性是指偶然性,那么偶然性又怎么能预测呢?答案很简单:泊松所谓的预测跟我们日常生活中追求的有所不同。跟伊斯特凡·泰勒格迪对教皇十字军的未来所做的预言不同,他的手法更像爱因斯坦推导原子运动规律。爱因斯坦知道推测出单个原子的运动轨迹是不可能的,所以转而假设原子的运动是随机的,然后推导出原子离释放点的距离遵循扩散理论。
同样,泊松根本没去想陪审员是否做出了正确裁定,而是假设每个陪审员都像掷骰子那样投票:他们大部分时间是对的,但偶尔会出错,而且我们永远无法知道他们什么时候是对的,什么时候是错的。在这一假设的前提下,泊松利用定罪率的统计数据推导出了整个陪审系统的可靠性。
遇到无法理解的事情,我们就说是偶然,但事实真是这样么。
爆发,无处不在
爆发的本质规律:幂律分布
数据显示,战争和争端只不过是偶然事件。
如果人类行为是随意的话,我的电子邮件流就会均匀分布,但我的通信情况却并非如此。相反,不管是哪一天,在长时间没发邮件之后的一小段时间内,我就会发送大量邮件。事实上,不管哪天检查,我发送邮件的次序都不是随意的,从来都不是。相反,它们往往充满了爆发点。
爆发洞察
战争和财富都不是泊松分布均匀的,而是幂律分布,会有一个爆发点。
大部分战争都是死伤几百人的小型战争,而伤亡人数巨大的大型战役则少之又少。
大多数人都很穷,而少数人则积累了大部分财富。
网页访问和邮件模型类似,所以我们要观察这些异常的爆发,也是洞察背后发生的逻辑,比如什么时候网站会有哪些链接的爆发。这个模型重在告诉我们要关注各种突发异常的识别,也可能是识别真正的需求点,就如二八定律一样。重要的不是8而是2.
请学会偶尔说“不”
爆发的起点 1:优先级模型
泊松的经验,他会一本笔记一个习惯,终其一生,精挑细选地确定优先要做的事情。时间就是金钱,时间最为宝贵,我们要列举自己的清单,首要的重要的放前面,偶尔说不,拒绝干扰,才能更好把首要的从清单清理掉,比如发现很多事物的共同规律,看出底层的模型,比一直重复做一些类似的事重要。
幂律,在优先次序的排定中产生,如果你完全都是一样的概率,那就难以爆发成功。也就可能是碌碌无为。
爆发洞察
在前几章中我们集中讨论的是间隔时间,比方说一个人发两封电子邮件之间的时间,或在网页上两次点击之间的时间。但刚好相反的是,优先级模型涉及的是清单上每个任务等待的时间,恰恰是这一等待时间遵循幂律规律。比如重要的多推荐多展示,
勤奋很重要,但方向更为重要。
来一次爱因斯坦式的时空穿越
爆发的起点 2:信件模型
爆发是必然,或者说跟有没电子通讯产品无关,是人类发展的结果,
两位不同时代(爱因斯坦在达尔文去世前 3 年出生)、不同国籍的学者的通信记录都遵循同一规律,这一事实不是表明我们在窥视某人的特殊癖好,而是表明我们发现了前电子时代人们通信的基本模型。这也意味着,不管我们的信息是在电脑上以光速传播,还是借助蒸汽机船慢慢地漂洋过海,我们的通信模型都是一样的。区别只在于优先级的时间间隔。
在陌生的地方重新开始
爆发的轨迹 1:信天翁模型
搜寻稀缺食物的最好办法就是小范围内随机走动,偶尔来个大范围的区域调整。当搜寻散落在大片区域里的少量食物时,规律的或随机的搜寻都不是最佳策略。最好的方法是遵循一种爆发搜寻模式,因为在长距离运动帮你拉长战线的同时,短距离操作会让你搜寻到邻近区域的食物
这个很少想我们的搜索算法,爬山搜索,群智能的搜索,在信息时代这个方式是非常关键的,我们在小范围深耕,然后大范围随机探索。现如今的跨界学习、创新创业也是如此,没法再在一个点一直做而不去发现关联其他的。
如今,爆发搜寻模式解释了各种各样的行为现象,如人类的记忆搜寻,以及万维网的信息查找等。在论文一篇接着一篇发表后,科学家已经充分证明了查找某个特定目标的最佳策略不是最明显、最系统、最规律的搜寻模式,而是具有爆发性、间歇性,甚至是偶然性的搜寻模型,爆发可能在一些偶然而又必然的过程中。
所以要必然加偶然。
我们不会永远漂泊
爆发的轨迹 2:手机模型
正如之前钞票的流通,大部分在局部区域,少数会流到远方,就像上面列维飞行模式一样,从而人类的活动也类似这种模式,而我们使用的手机数据也会记录下,但我们都不会漂泊,也就是说会回来。
这里作者也做了实际的映射,因为移动电话的集团高层也意识到了,看到更为深层的手机上的社交网络才是真正的价值所在,现在看到了很多社交软件也不足为奇,包括微商、社交电商也才是更贴近客户的,他们和研究者开始更多关注了客户而不是产品,从而在市场营销到客户运营都在转变。
但是钞票的运动并不代表人的运动。相反,钞票就像个正在被传递的接力棒——它们从一个赛跑者手里传到另一个赛跑者手里,沿着相同的路线被传递了很多次。
而这种运动其实就是一种弱连接,是各个圈子间的连接,可以跳跃到你可能都碰不到的圈子。只要你还在飞行。
爆发洞察
我们大部分的人社交圈很小,那怎么保证了列维运动,那就是要有一些触点来连接,同时还有类似一些异类的人来连接,比如一个网红的粉丝,也可能是一个学法律的去做网络设计编程培训。有的单身人士参加社交活动等。
其实很多内容也是可以,你只要找到一些圈子,发现一些可以连接的东西都是可以开启新的模式,从而连接一些人。
幂律指出了这两种人存在交集:很大一部分人真的是只在附近一到三公里的范围内活动;还有一些人(相对较少,但还是占大多数)的活动半径是 6 公里;另外一些人的日常活动半径是 80 公里。这些人与那些活动半径达到上百公里的个别人共存。从这个角度看,理查森的结论是正确的:越大就越少。你的活动范围越大,周围跟你一样的人就越少。——作者注
每个人都是习惯的奴隶
爆发的频率:熵
这里说的就是数据量巨大,我们要怎么让数据更有用,而不是garbage in garbage out
这里有个有意思的例子:
《游侠》的主角是一个哈里昆人。她从来不用信用卡,也不去银行开户,甚至不会长期居住在同一个地方,她就这样一直生活在社交网络之外。她意识到“任何能够反映哈里昆人日常生活习惯以及生活圈”的现象都能被“巨型机器”捕捉到,并进而查到她的所在地,所以她总是“随机行事”。也就是说,她依靠随机数生成器来替自己做决定。“奇数是对,偶数是错。只用按下按钮,随机数生成器就会帮你做决定”,而这样一来她的活动也就变得完全不可预测了。
其实就是说这个熵 ,是不确定性的大小,如果每次行动都是随机,也就是目标分类是非常平均的,我们的不确定性就非常大,而如果熵是0 ,那理论上预测的正确率是100%,所以我们重要的是找出有规则的有规律的那些。才是有意义的。
这就是说的你的重复性决定你的熵,而很多商业分析也是会预测你的重复性,可能会做的动作。
爆发洞察
不过,我们这次的直觉错了——预测性并不遵循我们熟悉的幂律规律。也就是说,不管我们多么努力地搜寻,数据库中都找不到异常值。相反,我们发现所有用户的平均可预测程度都在 93%左右。这就意味着人们只有 7%的时间是行踪不定的。这些不确定事件往往发生在两个人们最常去的地方之间——比方说在高峰期乘车上下班的时候,或者午饭计划有变动的时候。在剩下的时间里,大部分用户的行踪都相对容易预测。
同时也从另一个方面发现异类,谁是异类,这也是类似信用卡欺诈检测的底层思维来源。
爆发来到大数据时代
数据,是一把双刃剑
正如上面的信用卡一样,数据带来了大量商业价值,也给大家带来大量便捷,但同样也会带来隐私的安全问题
手机运营商掌握着我们的实时通信信息和行踪;
我们的花销和旅行习惯对银行来说已不是秘密;
我们的社会关系和个人爱好都被电子邮件供应商归了档;
监视器会经常录下我们和身边人的一举一动。
等等都是现在已经应用或遇到的了,应该说很多时候我们更多是要考虑会被不良商家或是罪犯恐怖分子利用。
爆发的世界里没有黑天鹅
对于爆发的洞察
对于大健康的研究,很多时候我们无法预测疾病,但是发现很多共同的行为,共同的特征,会使一些人在一些时间爆发疾病,
爆发是生命奇迹的必要因素,表明生物为了适应和存活会进行不懈的斗争。
如电子邮件的使用以及旅行模型,都表明爆发与人类的意志和智力之间存在很深的联系。优先级设定只是加强了这种联系,因为正是我们的偏好决定了某项任务是立即完成还是永远搁置。这表明爆发的出现需要你具备设定优先级的能力。
我们的基因进行着一种杂乱而具有爆发性的运动。
知识也具有爆发性,历史文明也是
总之说明自然中的爆发其实也是必然的,也是一种发展
我们正处在一个聚合点上,在这里,数据、科学以及技术都联合起来共同对抗那个最大的谜题——我们的未来,既是个人的又是社会的。无处不在的爆发,是科学的台柱,而它的影响力将与 20 世纪初期的物理学或者基因革命的影响力不相上下。
也许十年前看着文章可能还像看科幻玄幻,可能还很多会笑着说你就学究,但如今已经被大量认同了。
这种预测的爆发也是历史性的
用书里的话:
那些科技设备正紧盯着我们,设法将我们的需求转化成钞票。购物、旅行、娱乐、爱情、疾病、人际、慈善以及工作等,我们的所有行为都从根本上受到了这种无处不在的数据挖掘技术的影响。
这正是现在在发生的事情。
最后的思考,
人类可能是再造一个世界,一个社会,同时会融入社会、基因、生化等各种技术,甚至会使新的人类,这就是未来的预测。