《大数据》读书笔记

注:本文是徐子沛老师所著《大数据:正在到来的数据革命以及它如何改变政府、商业与我们的生活》的读书摘抄,原始参考版本为广西师范大学出版社2015年印刷版。一篇读罢头飞雪,数据确实事关中美国运。

第二章 数据帝国的兴起

  • 由于无线传感器的快速发展,普适计算已经在美国的农业、运输、能源和建筑等领域逐步铺开。 2011年10月,(美国,下同)联邦政府商务部下属的国家气象局(NWS)宣布,该局已经在全国2000辆客运大巴上装备了传感器。邮车投递邮件的同时,实时采集社区的空气质量、污染指数和噪声等数据指标。

  • 凭借日常环境中广泛部署微小的计算设备,人们能够在任何时间和任何地点获取并处理信息,计算将最终和环境融为一体。这就是普适计算,是人类的第三波计算浪潮。万事万物,凡存在,皆联网,凡联网,皆计算

  • 业务工作的管理数据,民意社情的调查数据,以及对大自然、动植物的特点和变化进行监控而产生的环境数据,是联邦政府的三大数据来源。

  • 美国癌症研究所以及中央情报局如何通过收集海量数据、建立数据仓库、实施以数据挖掘为核心的自动分析技术,获得了出人意料的创新和成功。

  • 社会科学将脱下“准科学”的外衣,在21世纪全面迈进科学的殿堂。例如,新闻的跟帖、网站的下载记录、社交平台的互动记录等等都为政治行为的研究提供了大量的数据,政治学这门古老的学科,将登堂入室,成为地道的“科学”。

  • 大数据的影响,就像4个世纪之前人类发明的显微镜一样。显微镜把人类对自然界的观察和测量水平推进到了“细胞”的级别,给人类社会带来了历史性的进步和革命。而大数据,将成为我们下一个观察人类自身社会行为的“显微镜”和监测大自然的“仪表盘”。

第三章 数据治国

  • 数据被视为科学的度量、知识的来源;没有数据,无论是学术研究,还是政策制定,都寸步难行。

  • 随着大数据时代的不断深入,美国人对于“上帝”的态度,可能会越来越纠结;而对“数据”,将会越来越“迷信”

  • 根据数据分析的结果,该局调整、制定新的政策,新政策实施以后,再收集新的数据,进入新一轮的效果评估,如此周而复始、循“数”渐进,从而确定最有效的措施、最好的做法,再在全国推广。

  • 福利政策在全世界最大的争议,就是福利滥用、最后养了懒人,导致社会发展缺乏动力。美国虽然慎之又慎,但这两块免费大蛋糕,也不例外。

  • 为获取利益,人类的创造力总是无穷的:虚假账单、重复申报、无中生有,小病大治、慢治、长治,隐瞒收入和存款、装穷吃低保,林林总总,不一而足。

  • 数据挖掘的做法将为国家节省开支。联邦政府如果在社会福利的项目上加大数据挖掘、分析技术的应用,预计10年内可以再为国家节省2000亿美元。

“破窗理论”(Broken Windows Theory)认为,一个城市,如果对小的违法行为纵容姑息,不良现象就会被放任、模仿,逐渐扩大、蔓延为成片的犯罪行为。所以,即使对一个窗户玻璃被砸破的投诉,接警中心也要认真记录,并纳入地图上的数据分析。也就是说,地图上的圆点不分案值大小、案情轻重,一律同等对待。

第四章 商务智能的前世今生

  • 现代政治学的基本常识告诉我们:由于无法引入有效的竞争机制,政府注定难逃低效的命运。美国联邦政府也不例外。

  • 公司、大学才是这个领域真正的弄潮儿和领航人

  • 信息越丰富,就会导致注意力越匮乏……信息并不匮乏,匮乏的是我们处理信息的能力。我们有限的注意力是组织活动的主要瓶颈(笔者注:类似于雪盲症)。

  • 人类的理性是有限的,因此所有的决策都是基于有限理性(Bounded Rationality)的结果。这位天才科学家继而提出,如果能利用存储在计算机里的信息来辅助决策,人类理性的范围将会扩大,决策的质量就能提高。

  • 怎样从各个独立的信息系统中提取、整合有价值的数据,从而实现从数据到信息、从信息到知识、从知识到利润或者决策的转化?

  • 西蒙的整个学术生涯都浸润着卡内基梅隆的色彩,他从政治、经济出发,把毕生的精力都集中在对决策和信息的研究上,将不同学科之间的“交叉性”应用得炉火纯青,也硕果累累。1975年,由于对人工智能的贡献,他获得了计算机学界的最高奖项图灵奖。

  • 科德提出的关系型数据库具有结构化高、冗余度低、独立性强等优点,彻底把软件中的程序和数据分立开来。从此,软件的发展成了“两条腿”走路,程序和数据在各自的轨道上自由奔跑。

  • 麻省理工学院的研究人员第一次提出,决策支持系统和运营信息系统截然不同,必须分开,这意味着要为前者设计独立的数据存储结构(笔者注:人脑中的决策系统和执行系统也是如此)。

  • 油灯越拨越亮,道理越辩越明。

数据挖掘(Data Mining)数据挖掘是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间隐藏的关系、模式和趋势,为决策者提供新的知识。之所以称之为“挖掘”,是比喻在海量数据中寻找知识,就像开矿掘金一样困难。

  • 数据可视化也是几代统计学家上百年的梦想。历史充分证明了数据可视化的价值,特别是在公共领域的价值。官僚们麻木的神经尤其需要强烈的视觉效果来冲击、来刺激。生理学也证明,人的大脑有40%是视觉反应区,人类的神经系统天生就对图像化的信息最为敏感。通过图像,信息的表达和传递将更加直观、快捷、有效。

数据可视化(Data Visualization)数据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的大小,诠释数据之间的关系和发展的趋势。

  • 信息过载这回事并不存在,问题出在糟糕的设计,如果你用来表达数据的图形让人感觉杂乱不解,那就要修改你的设计。

  • 2010年起,谷歌的首席经济学家范里安(Hal Varian)就一直在多种场合强调,下一个十年,将出现一类新的专业人才:数据科学家。其中一种,正是数据可视化工程师,这种人才既懂得数据分析,又精通构图的艺术,集故事讲述和艺术家的特质于一身,将是我们大数据时代的导航员

第五章 帝国的法则

  • “美国政府的任何工作和作品,都不适用版权保护,但美国政府可以接受并拥有通过转让、赠予或其他方式获得的版权。任何联邦政府部门收集的数据,必须无偿与其他部门共享,如无法律明禁,还必须向全社会发布。”

  • 有无版权的根本在于收不收费。既然没有版权,政府发布的数据和信息,在法理上就没有收费的理由和根据,只能全民共享、免费发布。“免费”背后的逻辑其实也很清楚:政府的运行是以公民缴纳的税收为基础的,就好像我们雇请别人来为我们工作,既然已经支付了工资,就不必为其中的某一项服务或工作成果,再付一次钱。

  • 最为经典的例子是美国海洋与大气管理局NOAA发布的天气数据。该局不仅在互联网上为公众免费提供实时的天气预报数据,还提供非常友好的批量数据下载功能。在世界各国的经济生活中,有不少行业,如农业、交通业、建筑业、保险业、旅游业,无一例外都和天气的变化。

  • 美国全国有三分之一的GDP产值都和天气情况紧密挂钩。仅全国的发电厂,因为得益于NOAA发布的免费数据,从而可以预测下一天、下一周的发电量、优化资源配置,每年节省的经费达1.66亿美元。

  • 免费发布的天气数据是经济发展的巨大助力。2001年,普华永道对此做过专门的调查,它的研究结果是:受益于免费的数据发布模式,2000年美国天气风险管理行业(Weather Risk Management Industry)的产值是整个欧洲的近60倍、整个亚洲的146倍

  • 工厂排放的废气、汽车的尾气以及车间的通风条件都要符合相应的标准。这些标准,都是数据。随着社会的发展、科学的进步,这些标准越来越多、越来越细,每一个都和国民生活和经济发展息息相关。

第六章 《数据质量法》的困局

  • 没有人认为民主制度是完美的或万能的。事实上,民主制度是一种糟糕的制度。但迄今为止,这是我们对政府形式所有的尝试当中发现的最好形式。

  • 为什么在美国这样一个高度民主化的国家,在政府与企业游说的博弈当中,公共利益常常还是无人代表或者说缺乏强有力的代表呢?这也恰恰印证了斯蒂格勒指出的:

“政府最终会被利益集团捕获”。

  • 《数据质量法》的困局,其实反映了人类社会在向前发展过程中遭遇的一个困局。这种困局,就是个人利益和公共利益之间难以兼顾的矛盾。

  • 斯蒂格勒指出,政府监管部门最终会被产业界俘虏,其监管标准也会被商家所左右

  • 每个人都是经济理性人,也就是说,每个人做事,都会首先考虑自己的利益得失。大家一起行动,一旦行动成功,所有的集体成员都能从中受益,包括那些没有参与行动的、偷懒的、取巧的、旁观的、冷嘲热讽的,甚至使坏的,都将从中获益,而行动的真正参与者、领导者,却可能要付出不同一般的代价。每个人一计算,都发现自己的最佳策略是“坐等”,是“围观”。也就是说,明知现实不合理,自己也不想出力,都希望别人出头、自己搭车。这种集体都想“搭便车”的结果,就是公共利益得不到有效的照顾、大家的权益最终都受到损害

  • 当集体越小、利益冲突越激烈的时候,越容易联合;当集体越大、利益冲突并不明显的时候,越难联合。

  • 同一个问题,公司能够迅速地组织起来,进行强有力的游说,而利益受到了侵害的大众,却无法组织起来与公司抗衡。这是因为公司是个小集体,利益集中,容易达成共识,而社会大众的利益高度分散,很难结盟

  • 这个理论其实也很好地解释了专制制度为什么能在一些国家长期存在。专制者将一个国家大部分人的一部分权利和自由都剥夺了、抹杀了,大家都憎恶专制,但在一定时间、一定程度内,却很少有人反抗。为什么?这是因为,通过反抗,即使能推翻专制制度,其结果是所有人都受益,但出头冒尖的人却可能要付出极大的代价。人的自利天性,使大部分人都选择了沉默,并把希冀的目光投向他人。专制者当然也懂得这个道理,他们在维护专制的同时,会不遗余力地打击出头冒尖的反抗者,杀鸡儆猴,全力瓦解一切可能发生的集体行动

  • 当一个代表接受了一个群体的权利让渡之后,他就可能上升到职业化的高度、提出专业化的意见,他所代表的人群也就成了一个利益相关的集体。这时候,一旦利益受到侵害,他们就很容易联合起来,进行反击。这种机制,一般称为代议制

  • 法国的思想家托克维尔在游历美国之后,出版了轰动一时的《论美国的民主》,被誉为对美国民主制度的经典诠释。他在书中写道:

“美国人不论年龄多大,不论处于什么地位,不论志趣是什么,无不时时在组织社团……

  • 说白了,组团结社就是组成“利益集团”,通过休戚相关的利益,大家紧密相连,放大自己的声音,声张团体的利益,形成一股力量。这股力量,使一个集体可以和其他的组织(包括政府)合作,也可以与它们抗衡。

  • 只有通过各种各样的自由结社,各种利益,包括公共利益,才能最终被充分代表。平等和结社,不仅可以帮助人类社会走向文明,也是人类社会保持、延续文明的关键。

第七章 全国隐私风波

  • 预算局相信,把政府部门所有的数据库连接、集中、整合起来,建立一个大型的数据库,这不仅能节约硬件成本,还能提高数据管理、查询和统计的效率;此外,通过部门之间的数据对接和整合,还可以提高数据的准确性和一致性,减少数据的错误。

  • 现代经济依赖于大规模的数据整合和交换,统一集成的中央数据库,将提高经济效率,方便大众的生活,是现代社会发展的必然,是社会进步的不二选择。

  • 无论是个人的日常消费等琐碎小事,还是事关健康、教育的重大决策,都会在各种各样的信息系统当中留下“数据脚印”。这些“数据脚印”,保存在不同的系统中,可能无伤大雅。但如果建立起中央数据银行,通过数据整合和信息加总,就可以再现一个人生活的轨迹和全景,各个系统之间的数据可以彼此印证、互相解释,个人隐私就无所遁形。隐私学学者认为,这种信息加总和数据整合,无异于一种监控,准确地说,是一种“数据监控”(Dataveillance),其对个人隐私权的侵害,大数据就是老大哥!(Big Data is Big Brother)

  • 联邦政府也未尝不想建立全国统一的身份证件。但问题的关键在于:国会不同意!国会的问题又在于:大部分人民不答应!

  • 统一身份证是管理社会、控制公民的一种手段,在美国,这种手段被视为是警察国家的做法,是集权社会的象征,是违反美国精神的。当然,盖洛普也承认,统一身份证有利于警察打击犯罪、加强国家的安全,特别是在应对恐怖袭击、自然灾害等等突发事件当中,统一身份证将大大方便政府对社会的管理和控制。但是没有任何理由去牺牲公民实实在在的自由以换取“可能会好一点”的国家安全。

第八章 数据开放运动

  • 从古至今,所有的政府,都带有保密、封闭的文化基因。虽然一谈到透明和开放,大部分人都会认可这是正确的价值观,但一旦要自己透明、要自己开放,那开放和透明就立刻变成了一种威胁。政府首脑的第一反应往往是“安全第一、保密为上”;具体到一线的工作人员,也是“多一事不如少一事”,直接打上“保密”的标签,最为简单省事

  • 两组分别貌似安全的数据,一旦整合相联,可能会产生意想不到的结果,对国家的安全产生威胁

  • 当数据累积到一定程度时,航班延误时间的长短就会在统计上呈现出一种秩序和稳定。航班延误分析系统把这种统计学上“秩序和稳定”传达给了旅客,帮助他们建立正确的期待,合理安排时间,避免焦虑。这有利于推动航空市场的良性竞争。航班延误分析系统按平均延误时间给相关航空公司排了“座次”。就是否准点而言,谁好谁差,几乎一目了然。

  • 这些数据,不仅是消费者的行动指南,也是各大航空公司的核心竞争指标。通过这种数据公开,无疑可以促进市场竞争,航班延迟必然逐渐下降到消费者能够接受的合理范围之内。

  • 开放数据是一石三鸟,不仅服务大众,刺激经济,还调动了大众创新,为政府节省了软件开发的开支。

第九章 试金石:白宫访客记录

  • 美国人的传统,还是推崇“自助”,相信“自助是最好的帮助”,而不是“他人的帮助”、“政府的帮助”或“上天的帮助”。

“我认为帮助穷人最好的方法,不是给予金钱实物减轻他们的贫困,而是引导鼓励他们脱离贫穷。年轻的时候我在很多地方游历,在不同的国家我都观察到:政府为穷人提供的更多,他们自己努力的就更少,自己不努力,自然更加贫穷。相反,政府为他们提供的越少,他们就为自己做得越多,他们也就变得更富有。”——富兰克林

也就是说,当一个国家的政府为人民负起太多责任的时候,人民就会失去“自助”的动力,不再对自己负责,社会的发展就可能会因此减速甚至停滞。富兰克林“自助自立”的观点,获得了多数美国人的认可,成为美国社会反对全民医保、反对建设福利国家的主要理由。

  • 美国人认为行政权力不仅低效,而且很容易被滥用,因此从来就不信任政府。怀疑政府、限制政府,是美国人面对政府权力扩张的一种自然反应。全民医保,意味着政府要对医疗产业进行大规模的干预和包揽,这当然需要警惕

  • 历届美国总统,既是能干人,更是普通人,他们在以一己之力推动社会进步、国家富强的同时,无法面面俱到,甚至犯下了不少错误。但因为存在一个比较完善的制衡制度,这些错误,可以被纠正,也往往成为另外一些人建功立业的契机。美国的这些历史也证明,圣人治国是一个无法企及的良好愿望,甚至可以说,根本就是一个无稽之谈

第十章 矿难中的歌声和数据

  • 利益受到侵害的大众,由于其分散性,很难有效地组织起来;而公司、资本家一方,由于其利益高度集中,很容易结盟,形成游说的势力,左右政府的政策

  • 当时的资本家为了阻止矿工参加工会、瓦解工会组织的行动,无所不用其极:他们雇用打手维护矿区的秩序,驱赶工会的领袖,甚至派出枪手在工会领袖的家里投掷炸弹、杀人灭口,手段非常残酷。

  • 掌握信息多的人,在社会竞争中处于有利的地位,而信息贫乏的人,则处于不利的地位。前者可以通过向后者有偿转让信息来获取利益;无偿出让,则收获“善意”;只有信息自由流动,各方掌握相同的信息之后,彼此才能建立完全的信任。

  • 政府作为全体公民的代表,可以凭借合法的手段获取几乎全部的信息,是社会的信息枢纽。

  • 每一条法律、每一项政策、每一个决定,还要在这个框架之内讨论、争辩、博弈,才能达成一个共识、输出一个结果,各方利益才能平衡。这个过程,说白了,还是“争”。如果有一方不“争”,那他的利益自然得不到充分的照顾和保证。此外,民主框架的本身,也是一个“争”的结果。

民主,永远不是一件已经完成了的事情。民主是一个过程,需要一个国家永不停懈的努力。民主不是结果、而是参与的过程,这个过程,时时都要“争”。

第十一章 大趋势

  • 英国的一些政治领袖、技术精英都不认可美国的数据免费模式。数据的价值,关键在于质量,而“免费”几乎就是低质量的代名词;只有收费,才可能有高质量的保障。他们主张在政府和社会之间成立一个公共数据公司(Public Data Corporation),专门负责数据的加工和整理,确保质量,再以收费的形式向社会发布。

  • 在对下一代互联网的研究过程中,伯纳斯-李深深地意识到数据对于未来社会的重要性,他说下一代互联网本质上就是“数据网”(Web of Data),他在各种场合大力推广“数据网”的新概念。和昆德拉一样,伯纳斯-李也很快遭遇到了政府部门的铜墙铁壁。几乎每一个部门对开放数据都疑虑重重,伯纳斯-李借鉴了美国阳光基金会的做法,他在英国也举行一次公共数据的应用程序开发大赛,这个竞赛成了转折点。2009年夏天,他带着普通人开发的若干程序,在白金汉宫给全体内阁部长做展示,以此彰显全民数据共享的效果。

  • 2010年1月,英国政府的数据开放网站正式出台:Data.Gov.uk。除去地理信息之外,该网站公布了3000多项民生数据。而这个时候,美国的Data.Gov虽然已经经营了半年多,还仅仅只有1000多项民生数据。

  • 卡梅伦出任首相之后,他领导的联合政府不仅全面沿袭了上届政府的数据开放运动,还继续深化,提出了“数据权”(Right to Data)的概念。

  • “数据权”是信息时代每一个公民都拥有的一项基本权利,并承诺要在全社会普及“数据权”。不久后,英国女王在议会发表演讲,也强调要全面保障公众的“数据权”。

  • 英国的商业部认为,通过深化“我的数据”项目,将鼓励正面的市场竞争,消除个别商家利用客户“信息不对称”、打“擦边球”的赢利行为。社会资源的配置将更加精细、更加优化,社会运行的总成本将会降低。同时,新的数据开发工作将创造新的就业机会,可谓既开源又节流,全社会都受益。

  • 全世界已经有50多个大大小小的数据开放网站,仅仅再增加网站的数量,已经意义不大,要引导开放数据运动在世界范围内的深化,应该着眼于建立全世界统一的数据开放平台和开放标准。

  • 中国的香港地区也融入了这股大潮。2011年3月,香港推出了公共数据开放网站Data.One,目前该网站只开放地理和交通两大类数据,已有近百组数据可供下载。

  • “云计算”(Cloud Computing),是一个较为抽象的概念。其来源和演变,凝聚着众多科学家的智慧和创新。1963年,人工智能的另一位先驱、斯坦福大学的约翰·麦卡锡教授就预见说:

“计算的能力,有一天会被组织起来,成为一种公共资源和公共事业。”

  • 也就是说,把计算的能力放在互联网上,而不是你桌面的个人电脑上。所有的硬件计算能力、存储能力、软件执行能力,全部都由网络提供:网络就是你的计算力,网络就是你的电脑。这种通过网络将计算能力组织起来的做法,可以实现经济学意义上的“规模化”和“专业化”,意味着巨大的利润空间。

计算的边界将由经济的规模效应决定,而不仅仅取决于技术层面的限制。

  • 也就是说,就像自来水管道供水、电力网输电一样,云计算把“计算”从有形的产品变成了无形的服务。计算能力成了一种可以传送的服务,这是继互联网的出现之后,信息技术领域最重要的一个创新和变革。

  • 曾经,每一个家庭、农庄、村落、城市都必须有自己的水井。今天,你仅仅打开水龙头,干净的水就通过公共供水管道输送给我们。云计算,也是这个道理,就像我们厨房里的水一样,可以根据我们的需要,随时打开或者关上。

  • 云计算的出现,把数据存储和数据分析变成了一个可以更加方便获得的网络服务,毫无疑问,这是一个重大的变革。随着它的普及,全世界政府、企业和个人使用、消费信息技术的模式,正在改写。但大数据时代,还在催生更多的变革。一个划时代的、更大的巨变,正在慢慢向我们靠近。

  • 大数据时代正在催生的最大技术变革,是重新构造互联网。伯纳斯-李将下一代互联网称为“语义网”(Semantic Web),他继而解释说,语义网就是“数据网”(Web of Data)。

  • 在大数据时代,信息共享、交流互动已经不再是最迫切的需求,数据的分析和整合,才是最大的挑战。

  • 万维网是一个网页的集合体。这些网页,即使内容相似、主题相同,但由于分属不同的网站、存储在不同的服务器上,他们之间就没有链接和联系,这意味着如果用户想找到它们、分析它们,就必须借助搜索引擎等工具。这也是谷歌之类的搜索公司为什么能成为商业巨头的根本原因:在现在的互联网上,各种信息之间是孤立的,我们要对它们进行整合、分析,就必须依靠人工的外力,目前最好的工具就是搜索引擎。

  • 搜索引擎并不完美。通过特定的计算机算法,搜索引擎按“关键字”的相关度对网页进行过滤排序,然后给用户返回一大批相关的网页,这些信息,良莠不齐,还需要进一步的人工分辨。未来的语义网,却不是一个众多网页的链接体,而是一个全球性数据库。在这个数据库中,各种相关数据通过“元数据”互相联结,计算机将根据元数据,自动为我们搜寻、检索和集成网上的信息,不再需要搜索引擎。

  • 计算机科学家正在对全世界万事万物的基本特点及其关系进行规范和定义,这个过程,叫做创建本体(Ontology)。

  • 语义网蓄势未发,除了基础工作庞大繁杂之外,还有一个经济学上的原因,可以用网络的外部性来解释。何为网络外部性?安装一部电话非常昂贵。当你计划安装时,你会审视你周围的朋友,如果他们都不买、也不装,那你的电话就无人可打、毫无作用,只有用的人越多、你能联系的人也就越多,电话对你的价值才越大。语义网也一样,你投入资源、人力,把你的网页、数据重新定义了,但还不够,你的数据必须和其他数据相联,你的工作才能产生价值。也就是说,你投资的效果,不是立竿见影的,而是最终取决于其他人是否投资、和你相联。只有全球性的数数相联,语义网才能最终形成、发挥最大的效用。

  • “现在,我们正处在这样一个阶段:如果你认为这是一个伟大的想法,那你就要去做。这件事,每个人的回报将取决于其他人是否行动。”换句话说,语义网的建设,也存在着“集体行动的困境”

  • 放眼望去,大地似乎平坦依旧、江河仍然向东奔流,但地表之下,正在平静地发生剧烈的变化。每一天,世界各地都在定义新的本体、增加新的互联数据。这些变化,也像地基,地基打得越深越牢,楼才能盖得越高越大。但这些本体,主要还是英文本体,中文世界对本体的研究和贡献极为有限。

  • 终有一天,全球将数数相联。数据在网上的自动整合和跳转,将会成为我们新的生活方式。通过这种新的方式,互联网将向我们“推送信息”,而不再是我们在网上“搜索”信息。

第十二章 大挑战

  • 数据将和企业的固定资产和人力资源一样,成为生产过程当中的基本要素。这当然是大数据时代的独特现象。和其他的生产要素相比,数据,无疑有其独特的特点。例如,工业生产过程中的原材料,一般都有排他性,但数据很容易实现共享,而且使用的人越多,其价值越大;数据也不像机器、厂房一样会随着使用次数的增多而贬值,相反,重复使用,它可能增值。此外,此数据和彼数据如果能有机地整合到一起,可能就会产生新的信息和知识,而且大幅增值。

  • 国家所有的权力都是社会授予的,或是以各种理由和借口向社会剥夺的,除了社会,国家权力没有任何其他的来源。

  • 在信息时代,信息是比物质和能源更为重要的资源,信息的产生、发布、使用、整合将成为经济活动的枢纽,并对全社会的政治生活、文化生活都产生重要的影响。

  • 虽然有海量的信息在流动,但个人接受到的涓涓细流都是量身订制

  • 计算将像水和电一样被供应和输送,再随着无线传感器的普及、普适计算的层层深入,“万物皆联网、无处不计算”正在成为现实,时空障碍将被彻底打破!

第十三章 大变革

  • 微学位是教育领域正在发生的革命。主动学习、终身教育,这些都是教育工作者探讨多年、孜孜以求的梦想。

  • 科学家相信,借助大数据的推力,社会科学将脱下“准科学”的外衣,全面迈进科学的殿堂。

  • 美国有个叫Udemy的网站,老师可以根据自己发放视频的点击率获得报酬。今年5月份,该网站宣布,其年收入最高的老师,已经超过了20万美元,收入排行榜的前十名,每人的年度收入都超过了5万美元。

  • 佐治亚州的学前班的老师Deanna Jump,是销售榜上的头名状元,她的教案在TeachersPayTeachers这个网站上的成交量已经超过70万美元,她目前的月收入已达6万美元,比绝大多数老师一年的工资还高。教案的交易,甚至出现了由学校牵头组织的团购,统一发放给全校的老师参考使用。

  • 美国这股正在兴起的在线教育浪潮,已经开始造就了一批万众瞩目的教育明星和通过教育致富的高收入群体。这将提高教师这个职业的吸引力,增强教师这个行业的竞争性,新的人才可能涌入,旧的格局必将打破。

  • 未来大部分的老师,可能会是课堂的组织者和学习的引导者,而不是知识的讲授者,其权威性将下降,师生关系将面临改变

  • 由斯坦福名教授Thrun创办的在线教育网站Udacity,就宣布免费,但这也不代表他不挣钱。其商业模式,是将1%学习成绩最好的学生直接输送给全世界最好的公司,从中收取中介费。

  • 教育理论认为,学习的本质是大脑对信息的一种加工,而有效的加工来自于有效的情境互动。

尾声——中国的挑战:摘下“差不多先生”的文化标签

  • 西欧和日本都已以商业组织的精神一切按实情主持国政的时候,中国仍然是亿万军民不能在数目字上管理。……

  • 数据表明,今天的中国,是一个人口大国、互联网大国、手机大国,但却恰恰还不是一个数据大国。

  • 中国近现代著名的思想家胡适就对中国人“凡事差不多、凡事只讲大致如此”的习惯和作风深感忧虑。1919年,他写下著名的《差不多先生传》,活灵活现地白描了中国人取道中庸、不肯认真、甘于糊涂、拒绝精准的庸碌形象:

“资本主义社会,是一种现代化的社会,它能够将整个的社会以数目字管理(Mathematically Management)。”数目字管理,即以事实为基础、以数据为核心的精确管理。

  • 中国过去百多年来的动乱,并不是所谓道德不良,人心不古,也不是全部军人专横,政客捣乱,人民流离”,而是因为中国未能像西方那样实行“数目字管理”的现代治国手段。中国的落后,根源之一正是缺乏以数据为基础的精确管理;而未来中国的进步,也有赖于建立这种精确的管理体系。

  • 和美国人相比,中国人确实缺乏“用数据来说话”的素养。中国的语言表达方式中“重定性、轻定量”的特点非常明显,口语中经常使用“大概”、“差不多”、“少许”、“若干”、“一些”等等高度模糊的词语。

  • 此外,和美国数据资源的丰富、开放相比,不少中国留学生对于国内的数据匮乏有切肤之痛。写论文、做研究,如果能选一个自己熟悉的中国话题,于国于己,都更有意义。可选的话题不少,但常常因为一数难求,多数选题都逃不出夭折的命运!有些数据国内确实没有,有待收集;还有些数据水分太大,经不起推敲和检验;再有的,被有关部门贴上了“机密”的标签,平民百姓无缘相见。

  • 中国人倾向于粗略的主观定性、排斥精确的客观定量,从而养成了重形象、重概括、轻逻辑、轻数据的文化习惯。这种文化习惯,使中国人长期沉浸在含蓄、模糊的审美意识当中,凡事只能在美术化的角度来印证,满足于基于相似的“模糊联想”,止步于用逻辑来分析、用数据来证明,最终将表象上的相似,当做本质上的相同。

  • 归根到底,中国人对数据的漠视,缘于一种文化上的缺欠:随意、盲目、不求甚解、理性不足。

你可以阻挡一支入侵的军队,但你无法阻挡一种思想。——雨果

  • 在这个浩浩荡荡、不断前进的世界大潮当中,我们将发现,中国如果不跟上,我们的处境将会越来越微妙、越来越尴尬、越来越孤立。

  • 收集数据、使用数据、开放数据,都是大数据时代我们中国人需要一一面对的挑战。这三大挑战,没有一个不是任重道远。

  • 而这些挑战,也是我们在大数据时代彻底摘掉“差不多先生”文化标签的重大历史机遇。如果在这个数据意义凸显的时代,我们还抓不住这些历史机遇,继续漠视数据、拒绝精准、故步自封,等待我们的,还将是一个落后的100年。

  • 但在进入信息时代之后,“数据”二字的内涵在扩大,它不仅指代“数字”,还统称一切保存在电脑中的信息,包括文本、声音、视频等。

  • 从全球数据技术投入的资金分布来看,传统的小数据仍然占据绝对的重头。据国际数据集团(IDG)统计,2012年,全球对小数据分析工具的投资为349亿美元,而对大数据分析工具Hadoop的投资仅为1.3亿美元,不及前者的1%。IDG的结论是,传统的小数据软件满足了企业和组织95%的需求。

  • 集体行动的形成,最重要的是民众的自觉,他们知道了自己必须要参与。中国人的参与感比较差,我们长期处于农业社会,农业社会是靠天吃饭的,靠血缘关系,靠地、靠自己,工业社会就不一样了,是一个大协作的社会,你必须要有公共精神、协作精神。中国人为什么公共精神、协作精神比较差,跟我们进入工业社会的时间比较短也是有关系的。

  • 广东现在就做得很好,它把非政府组织放开了,看起来这是一小步,其实是历史的一大步,因为你一放开,老百姓就可以自由结成团体,他们会自动寻求把利益诉求捆绑在一起。一旦捆绑在一起,形成一个团体了,现代信息社会有很多工具,人其实很容易连接起来的,就会形成一股力量,这股力量就会形成一种监督。

  • 未来的数据爆炸会产生四种数据:第一、过程数据:即传统的商务过程产生的数据。例如你在银行取钱、在商场消费留下的数据。第二、环境数据:包括机器的状态、大气的各种参数、人体的各种指标,都会传到互联网上。

  • 无人机现在成本越来越低,1000美元就可以购置一台无人机,一台无人机在农场上不停地飞翔,把整个农场拍摄下来,哪个地方的土壤变色了,哪个地方的植物有虫灾了,哪个地方的果实成熟了,都可以在第一时间发现。未来的农业是大数据驱动的精细化农业,可以根据情况及时调整种植措施。这不仅仅可以增加我们的农业收成,还可以节约我们的能源。

  • 有些基础性的数据,例如人口、天气、地理、经济指标这些数据,即公共数据,是这个大厦的基础,这些数据应该开放出来,让它们自由地流动,否则中国社会的数据是难以整合的。数据不是黄金、不是矿藏,我认为数据是土壤,是我们新经济的土壤,是我们未来智能社会的土壤。

——End——

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,904评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,581评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,527评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,463评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,546评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,572评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,582评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,330评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,776评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,087评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,257评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,923评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,571评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,192评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,436评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,145评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容