书声2020/蛋苗苗
我的职业和数据相关,前一阵子把涂子沛的《数据之巅》翻出来,躺床上又看了一遍。这书严格来说不是大数据相关的著作,不过作为美国历史书籍,倒是很有意思的一种分析。
初数时代,利用数据来划分国家权力,从而使国家权力相对共和,而共和的政治反过来促进数据的发展;内战时代,通过数据分析讲述了南北战争的原因,也展示了北方军队逐步取胜的过程;镀金时代,内战结束的美国,随着数据量的积累,对数据的分析利用逐渐增多;进步时代,通过水利工程的数据竞争、给生命定价、福特公司的道德危机及成本收益分析方法讲述了以数据决策已成为时代的主流。抽样时代,抽样统计的发展以及应用,经典案例如戴明质量控制,人口普查与统计学,总统竞选等。第二部分讲述了大数据浪潮的来龙去脉,虽然明为大数据,但从现在的观点来看狭隘了一点。数据量大不能成为大数据,多维度的不同数据的综合分析,挖掘出有用的商业模式才是大数据的应用。
结合自身工作相关的内容,对本书中提到的机器学习和智慧城市有点心得感悟。机器学习指机器通过统计学算法,对大量的历史数据进行学习从而生成经验模型,利用经验模型指导业务。最近工作物联网上遇到过一次移动物联网对某个客户不通的情况,此客户用的是移动APN专线,类似的其他客户没有遇到此类问题,这次事故造成这家客户的对外平台系统无法正常使用,用户无法控制自己的物联网系统,损失可想而知。在解决问题的过程中,最后发现中国移动和中国电信的网络之间的某个节点数据不通,排除掉运营商之间的原因,最后通过路由器机器学习的方法,自我识别到这个案例的情况,最终打通了这类通讯的壁垒。如果让人去寻找并通过运营商合作来解决这个问题,估计这家客户的用户等不及问题解决就要流失光了,并且该客户会面临巨额的索赔。最近也在自学机器学习相关的内容,推荐朋友们到coursea网站上参与学习。
智慧城市,是指运用信息和通信技术手段,感测、分析整个城市运行核心系统的各项关键信息,从而对包括民生、环保、公共安全、城市服务、工商业活动在内的各种需求做出智能响应。对我们感受最大的就是智慧交通了,智慧交通是在交通智能调度系统的基础上,融入物联网、云计算、大数据、移动互联等IT技术,通过信息技术对交通信息的汇集和处理,提供实时交通数据服务。简单案例手机打车,调度,智能跟踪等,每个人的出行信息均可在网络上体现,人人均是互联的一环。2017年上海外滩踩踏事故发生之后,对于人流量的管理控制应用有了很大的提高,从技术而言,就是通过数据来分析某个区的热力。想到的办法就是通过基站检测区域内的手机活跃数,对于达到阈值的场景及时加以人工干预。
读完这本书,对专业数据应用而言,不值得太过深入。不过作为历史数据资料可以一读,对数据应用感兴趣了,才会更加深入数据之巅。本书好评虽多,个人推荐度一般。主流的数据分析,需要有良好的数学基础,懂的图像识别技术,数据挖掘,深度学习,机器学习,自然语言处理,路漫漫兮修远兮,Python上下而求索。