数据:人类文明的基石 | 《智能时代》导读

必须要说的话

不瞒各位,我是吴军先生的粉丝。从《数学之美》、《浪潮之巅》到《文明之光》,我都是忠实的读者。2016年,吴军先生发表了新作《智能时代》,用以描绘给读者一个现在发生的和将要发生的未来图景。读完之后,我认为这是一本集结了吴军先生几部前作思想的融合。因此,我斗胆在这里尝试解读一下《智能时代》中一个最基本的着眼点——数据

大数据

从数据到知识

从人类肉眼所见的现象开始推演起,最终我们找到知识,大致是一个这样的阶段:

现象 > 数据 > 信息 > 知识

现象很好理解,你看到什么,就是什么。当人类开始采用语言文字进行记事的时候,数字被我们落实在了结绳、龟甲、竹板、石碑等上面,这就是最初的数据。到了今天,数据的范畴要比单纯的数字大得多。而现代互联网所谓的数据,可以说覆盖到了生活的方方面面。

知识的产生

比如,我们在社交网站上的聊天信息,上传的图片,点了一个赞,都是数据范畴扩大化的典型案例。除此之外,我们还通过科技手段保存下来了语音文字等,称作“语料库”。

这些大型数据中,可能承载着我们人类可以利用的信息。尽管,并非所有信息都具备人类理解的涵义。通过这些信息,我们可以利用一些分析手段得到具有意义的东西,例如数学公式、自然规律和某些系统性的特征。

这便是人类的知识。


文明的基石

得到数据和使用数据的能力,是衡量文明发展水平的标准之一。

古埃及人发展天文学,通过观察天狼星和太阳的位置来判断农耕时机,以及尼罗河的洪水。美索不达米亚的苏美尔人,通过观察月亮,发展出了太阴历的历法制度。古希腊文明随后继承了苏美尔人的成果,发展成为当时世界的数学和天文中心,最终由托勒密利用前人的数据,建立了天体运动模型。

这就是人类文明发展的过程,和数据紧紧地联系在了一起。我们先获取数据,然后分析数据,建立通用的数学模型,最终以此来预测未来未知的现象。这也是我们做科学研究的大致思维。

古代天文学的基石

相关性:数据的钥匙

看似毫无关联的数据,也可能存在意想不到的相关性,如同“蝴蝶效应”。

20世纪70年代,日本公司能中标大庆油田的设备招标,是通过分析铁人王进喜的宣传照片,从而推算出了油田的大致位置,储油量等信息,对招标工作进行了充分的准备。

Google Trends趋势产品:搜索的关键词随着时间和地点变化的趋势。通过这个产品,美国成功预测了H1N1的传播趋势,成为利用大数据解决医疗问题的经典案例。

数据之海

统计学

从现象中获取有效的数据,是统计学考虑的范畴,其要点是:量和质。

在统计样本数量不充分的情况下,统计数据分析出来的结论毫无意义。越想得到准确的统计结果,需要统计的数据量就越大。除此之外,统计数据还要求具备代表性。

如果不具备代表性,以1936年美国总统大选为例,将无法预测出结果。问卷调查的大多数人是高级知识分子,而忽略了广大平民,于是预测错误。要想找到代表性和统计量的关系,不得不依靠大数据。

可惜的是,盖洛普公司虽然成功预测了1936年的大选,却在1948年失败了,这就是因为没有大数据支持。而蒋介石当时也相信了他们的预测,却带来了政治危机。


数据驱动方法

以大数据来加速人类寻找知识的方法,就是数据驱动方法。

这听起来似乎和我们此前的科学研究方法有些背离。

在建立数学模型的时候,我们通常将精力放在选择和设计合适的模型上,然后再选择配套参数。但是,完美的模型未必能找到,就算存在,势必要花上一番气力。于是,我们开始考虑用很多简单而不完美的模型凑在一起,推倒出完美模型。

这个思路早就在美国和苏联的航天领域用到了。苏联缺乏数据和机器,因此采用了大量数学家进行计算从而获得模型;而美国更多是利用计算机和大量数据来建立模型。现实来看,美国的方法更胜一筹。

数据洪流

另一个例子,日本和德国的光学仪器之争。德国拥有超高的工艺,因此可以制造非球面透镜,尽管光学仪器小巧,却造价高昂。日本采用多个球面透镜,来取代非球面透镜,光学仪器很大很笨重,但是价格低廉。由此,日本超过德国在二战之后成为光学仪器制造大国。

只要数据量足够,就可以同若干个简单模型来取代一个复杂模型,这就是数据驱动方法,用很多简单模型来拟合数据。当然,一定要在误差允许的范围之内。


大数据的时代

计算机的发展和互联网的兴起,让我们可以利用机器进行大量的计算,从而推动了数据来推倒出合适的算法。这不仅仅是经验论,在数学上也有严格的保证。

尽管一开始可能存在数据不足等情况,显得有些粗糙,但是随着时间的推移,数据量不断增大,计算能力不断提高,获得算法的速度越来越快。就像AlphaGo一样,在经过几十万盘数据分析和比较之后,它只会越来越聪明。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容