正文之前
上周末是我一个很重要的人的的生日,所以基本没活动了。本周开始继续文化输出。but昨晚与我的启蒙学长讨论了下效率的问题,所以近期可能会有一些关于知识输出的文章写出来,不是转型,只是要好好地整理下自己的脑子,进行更高效的学习方式了。具体的内容可以参见《好好学习--个人知识管理精进指南》一书。
正文
一、大数据,变革公共卫生
2009年出现了一种新的流感病毒。这种甲型H1N1(这玩意我国前几年也曾爆发过,但是并未有效的防治,难道是因为我国的大数据还未参与进公共卫生???)流感结合了导致禽流感和猪流感的病毒的 特点,在短短几周之内迅速传播开来。全球的公共卫生机构都担心一场致命的流行病即将来袭。有的评论家甚至警告说,可能会爆发大规模流感,类似于1918年在西班牙爆发的影响了5亿 人口并夺走了数千万人性命的大规模流感。而且当时的人们完全不知道会从何时开始爆发。
在甲型H1N1流感爆发的几周前,互联网巨头谷歌公司的工程师们在《自然》杂志上发表了 一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊。文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州。谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法以前一直是被忽略的。谷歌保存 了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令,如此庞大的数 据资源足以支撑和帮助它完成这项工作。
谷歌公司把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性 流感传播时期的数据进行了比较。他们希望通过分析人们的搜索记录来判断这些人是否患上了流感,其他公司也曾试图确定这些相关的词条,但是他们缺乏像谷歌公司一样庞大的数据资源、处理能力和统计技术。
所以,2009年甲型H1N1流感爆发的时候,与习惯性滞后的官方数据相比,谷歌成为了一个 更有效、更及时的指示标。公共卫生机构的官员获得了非常有价值的数据信息。惊人的是,谷 歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。基于这样的技术理念和数据储备,下一次流感来 袭的时候,世界将会拥有一种更好的预测工具,以预防流感的传播。
读书感悟:那么,我们完全可以想象,大数据可以用在多少关乎社会科学方面的领域?还有什么社会调查比人们自己主动搜索的记录来的可信,范围宽广?如果要监控某个地区的人们幸福指数,完全可以搜索该地区的人们对娱乐活动的搜索指数,那么相应的可以大概的分析出幸福指数?更细化的话,还有诸多得了领域,完全可以进行无限的扩展,所以这才是大数据的魅力啊。
大数据,变革商业
埃齐奥尼(Oren Etzioni)创立了一个预测系统,它帮助虚拟的乘客节省了很多钱。这个预测系统建立在41 天之内的12000个价格样本基础之上,而这些数据都是从一个旅游网站上爬取过来的。这个预测系统并不能说明原因,只能推测会发生什么。也就是说,它不知道是哪些因素导致了机票价格 的波动。机票降价是因为有很多没卖掉的座位、季节性原因,还是所谓的“周六晚上不出门”, 它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势。“买还是不买, 这是一个问题。”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字,叫“哈姆雷特”。这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司,名为Farecast。
到2012年为止,Farecast系统用了将近十万亿条价格记录来帮助预测美国国内航班的票价。 Farecast票价预测的准确度已经高达75%,使用Farecast票价预测工具购买机票的旅客,平均每张 机票可节省50美元。
五年或者十年之前,奥 伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理 能力和存储能力太昂贵了!虽说技术上的突破是这一切得以发生的主要原因,但也有一些细微 而重要的改变正在发生,特别是人们关于如何使用数据的理念。
读书感悟:公共卫生毕竟是国家政府机关等才能操心贯彻的东西,我等小民,虽然大部分也用不上,但是难保以后不会涉及,大数据已经是一个潮流。所以多了解是没错的。商业是很贴近生活的一个方面,好比这比价的网站,能极大地方便我们的生活,设想,如果双十一之前,我们可以把要买的东西放进比价网站看看降价比例,那就能花最少的钱,买最多的东西了。更多的,我们可以用纯粹的大数据检测店铺的盈利曲线,当前绝大多数的店家都是靠的直觉吧,能用个excel分析下走势估计都是牛人了,那么当更强的大数据走入千家万户,店家甚至能知道某天上午的大概销量预测?综合天气,日期,节假日,季节,当下潮流,人均GDP等等来预测销量,想想就很激动有木有??而且,应用范围太广阔了,商业可不仅仅是卖衣服,卖日化的小店家。前景无限,当然,要搭建大数据的平台(计算机,数据来源,大数据工具使用,数据分析方法)这个门槛就把绝大部分的人堵死在门外,但是未来可期啊。
大数据,变革思维
如今,数据已经成为了一种商业资本,一项重要的经济投入,可以创造新的经济利益。事 实上,一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务。数据的奥妙只为谦逊、愿意聆听且掌握了聆听手段的人所知。
这仅仅只是一个开始,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战。 最惊人的是,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。也就是说只需要知道 是什么,而不需要知道为什么。这就推翻了自古以来的惯例,而我们做决定和理解现实的最基本方式也将受到挑战。
数据并非一个确切的概念。最初,这个概念是指需要处理的信息量过大,已经超出了一 般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具。这导致了新 的处理技术的诞生,例如谷歌的MapReduce和开源Hadoop平台(最初源于雅虎)。这些技术使得人们可以处理的数据量大大增加。更重要的是,这些数据不再需要用传统的数据库表格来整 齐地排列——一些可以消除僵化的层次结构和一致性的技术也出现了。同时,因为互联网公司 可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力,所以互联网公司顺理 成章地成为了最新处理技术的领头实践者。
读书感悟:我可以肯定的说,这几天看书下来,我的思维就在发生急剧的改变,不信的可以@下我的Mrs Right @XNC, 我前几天去给她过生日的时候都是三句话不离大数据,可能是魔怔了。但是确实生活中太多的东西可以用大数据来分析了。甚至不需要太精确的大数据,不需要超算,只需要用到这个思维,哪怕是Excel都可以分析出很多接过来。当然,数据必须结构化,不然非结构化的数据对于行外人实在太难受了。我希望以后我可以借助专业的高工具,创造更多的数据科学内容!!对于大数据的前景我很期待啊!!!大数据的思维格外的重要,这是一个制胜的法宝,小到客户分析,行情走势,大到国家政策等等都可以用到,希望我国能够追赶上这波潮流,成为数据大国,毕竟我国的人口红利仍在继续,巨多的人口创造的数据是极其可观的!
正文之后
大数据确实是很有前景的一个方向,就是目前还没有走上真正的风口,适用范围还不够广阔,慢慢的来吧。搞不好到时候我出去了就恰好走上了时代前列呢???哇咔咔咔 美滋滋!!希望我的选择是对的! 不过我是真的感受到了大数据的恐怖前景了!期待毕设开始,我的毕设题目暂定为“工业大数据”,名字是因为机械学院的教务科死活要机械相关--“是我们机械学院给你发学位证,不是计算机学院,所以要是太离谱了,搞不好给你个低分,如果到时候出台一个毕设分数不优秀就不能推免读研的政策,那你就没法读研啦” 我靠靠靠,不过也有道理,所以学了大数据之后,我的处女战就放在工业大数据吧,最近想想要做啥,应该是生产过程中的机床数据分析,但是具体的内容还没定,后续也要抓紧了。好想去实验室,但是大老板还完全没这个意思,好惶恐啊!!