厘清大数据的十个问题

      忽如一夜春风来,千“数”万“数”梨花开。近年来,大数据成为最时髦、最火热的话题,国家出台大数据产业发展规划,大数据科技公司如雨后春笋般冒出,电视节目中经常有各种大数据统计,就连微信段子也有戏说大数据。然而,虽置身于大数据时代,我们却多多少少不识其庐山真面目。通过阅读《大数据时代》《为数据而生》《数据之巅》《爆发》等有关大数据书籍,笔者试图通过以下十个方面认识大数据。

     1.到底什么是大数据(BIG DATA)?当我们不知道方向时,最好的办法是回到原点找答案。最早提出大数据概念的,是美国学者维克托·迈尔·舍恩伯格及肯尼斯·库克耶,提出时间为2008年8月,他俩在合著的《大数据时代》提出,大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理,也就是说样本=全部。著名的IBM公司认为大数据有5V特点,即:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。我感到,可从以下四个方面理解大数据:

       ⅰ.数据量巨增。随着传感器设备的大量布设,随着社交媒体的迅猛发展,随着科学研究的深入发展,世界每天产生的数据量大大增加了,而这些数据又能够通过各种各样的载体被记录、测量和使用。

      ⅱ.数据样式更杂。这些数据,有单纯的测量数据,更有文本、图像、声音、视频等人类行为数据;有结构化的数据,但更多的是非结构化的数据。统一数据格式将变得更加复杂甚至不可能。

      ⅲ.数据共享共用。通过各种各样的信息系统和平台,各种各样的数据尤其是人类行为数据能够共享共用。通过数据的共享共用,我们能够更好的预测未来。

      ⅳ.数据本无大小。其实,数据无所谓大小之分,也不能清晰的划定一定界限,超过了多少 TB或EB就是大数据,关键是使用数据的立场发生了改变。不再是抽样部分数据,而是使用所有数据;不再是把数据看作孤立的,而把数据当成整体;不再是把数据当作过去的记录,而使用数据预测未来、改变未来。

      2.为什么提到大数据都会讲到云计算?可以想像一种场景,我们每天被大量、多样的数据包围,而我们的计算能力还停留在珠算或者286、386的时代,那带来的结果必然是数据汪洋虽大,我也只有能力取其中一瓢。大规模生产、分享和应用数据,必将依赖强大的计算能力(当然也包括存储能力),这也就是为什么互联网BAT(俗称大佬)提到大数据肯定会讲到云计算。大数据与云计算是一个问题的两面:一个是问题,一个是解决问题的方法。正因为计算能力的快速发展特别是云计算的实践应用,大数据才有生根发芽的土壤,也才会成长为一颗参天大树。

      3.大数据发展的核心动力是什么?大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。早在人类早期,我们的祖先就发明了立竿见影、结绳记事的测量、记录方法,进而又出现了“准、绳、规、矩”的测量手段,《孙子兵法》还提出“算则胜,不算则不胜;多算胜,少算则不胜”,但我们国家的数据意识、数据思维却没有随之兴起,我们分析世界的方法更多的是靠经验、直觉和判断。相反,美国建国仅两三百年,从建国初期就通过人口普查分配议员名额,进而随着数据分权进程形成了数据文化、兴起了数据技术、深化了数据治国理念。可以想见,随着信息技术的发展,语言文字、地理数据甚至沟通交流都可以数据化,进而一切皆可量化,世界将成为数据海洋。这为我们提供了一个从未有过的审视现实的视角,这也可能成为渗透到我们所有生活领域的世界观。

      4.大数据的核心价值在哪里?大数据驱动了新工业革命,推动了生活、工作与思维的大变革。然而,我感到大数据最为核心也最为独特的价值就是预测未来。我们可以通过以下两种情形来理解预测这个问题:

      ⅰ.出行大数据。现在,每逢重大节假日,新闻频道都会实时播报出行大数据。这些数据,既有出行人数和出行方式,也有交通和景点的拥堵点,并有较为实时的统计数据。通过统计这些数据,于政府部门,有利于针对性加强管控措施;于我们个人,有利于计划出行的人们进行更好的规划。这也就是说,通过统计分析,我们能够更强的洞见未来。

      ⅱ.猜你喜欢。想必每一个网络购物的人,都会注意到购物网站会推送“猜你喜欢”的物品。这些物品,都是根据以往在该网站购物时浏览过、购买过的物品,浏览时长、搜索记录,以及正在浏览物品,经过一定的模型分析,进行个性化推送的。这是因为,一个人的行为不是孤立的,也不是无缘无故的,通过关联分析,是能够进行预测的。复杂网络研究权威巴拉巴西就认为,人类行为93%都是可以预测的。

      5.大数据时代,我们该如何进行角色定位?《大数据时代》一书,认为大数据价值链有数据本身、技能与思维三大构成,即基于数据、基于技能、基于思维。基于数据,指拥有海量数据,这对我们普通人、一般公司都很难做到。基于技能,应该说,技能性人才依然非常欠缺,尤其是精通统计理论、计算机理论的大数据科学家更为稀少。基于思维,应该成为我们的不懈追求。培养大数据思维,跳出旧有模式和框架的束缚,通过新思维激发新动力,更好的胜任本职工作。就如谷歌某位高管所讲的那样,“如果你想成功,你不应该成为一个普通的、可被随意替代的人,你应该成为稀缺的、不可替代的那类人”。当我们掌握了他人所不具备、符合时代潮流,同时又能更好的推动工作的武林秘笈,也就有了更多的选择和机会,心胸也不会再拘禁于小圈子、眼睛也不会再盯着小得失。

    6.如何处理数据?美国斯坦福大学教授阿图尔·布特说:“隐藏在成堆数据内部的知识能改变一个病人的生活或者改变世界。”诚然,数据无处不在、大量繁杂、不断产生,我们该用什么方法来处理数据,从而挖掘出数据背后蕴含的巨大价值。电子科技大学教授周涛认为:“统计理论和机器学习对于理解和应用大数据最有帮助。这两者背后各有一套认识和处理‘数据世界’的理念,其中前者能够帮助我们更深刻地理解这个世界并且揭示新的现象,而后者能够帮助我们去解决遇到的问题。”关于统计理论和机器学习,就我的认识来说,如果我们不专门从事大数据相关工作,掌握一定的统计理论,日常工作中注意加强数据分析和数据统计,会使我们的工作更富有数据理性;如果再把数据以可视化的图表等形式显示出来,可能会让领导更满意于我们的工作。至于机器学习,听起来很玄奥,我的理解是机器运算过程能够自适应,以目标为方向,自动调整系数,实现最大优化。

      7.如何培养数据意识?从认识到行动向来都有一段很长的路要走。说大数据是当今尤其是未来时代的主流声音,估计没人会反对,也没人会反对数据的重要性,然而,真正落实到细节上,用数据来管理、靠数据来说话,就没有那么容易了。不过,无论接受也好、拒绝也好,该来的总是会来的,不能只看到什么力量很强大,关键是要看到什么力量正在生长。我感到,既使不掌握复杂的统计理论和机器学习算法,也可以从以下三个方面入手,培养自己的数据意识、增强数据素养。

     ⅰ.自觉积累数据。在日常工作中,主动搜集、积累与业务相关的数据,形成自己的业务数据库,并分门别类加以整理。这里的数据,不只指具体的数字,也包括文本、图像和视频等非结构化的数据。

    ⅱ.加强数据统计。业务数据库建立起来后,不能成为闲置的“数据仓库”。不妨对一些重要的数据,进行分类统计,并形成可视化的图表。比如,单位人员的性别分布、年龄分布、学历分布、专业分布等等。

     ⅲ.强化数据分析。光有简单的统计分析,还不足以充分挖掘数据背后的价值。还应该根据工作需要,提取关键特征,并根据这些特征进行分析,给出更有说服力的结论。比如,考察某个老师的课受欢迎程度,就可以分析选课学生的数量、与老师交流的人次、上课打瞌睡的人数、学生的评价等次等关键特征,并与平均水平进行比较分析,从而作出相对客观的评价。

    8.大数据带来哪些隐忧?我们走在大街上,经常处于摄像头的注视之中;我们用淘宝买东西,我们的购物习惯被阿里巴巴记录,并能够分析出我们的经济状况;我们用手机与朋友打电话聊天,我们的通话记录被移动、联通等公司收集……更可怕的是别有用心的骗子能够获取我们的个人信息,了解我们的需求,进行针对性更强的诈骗。比如,有的学生这边刚收到录取通知书,准备办理助学贷款,那边骗子就电话告知如何办。如果各类信息进一步关联,我们时刻生活在“第三只眼”的监视之中,那我们的个人隐私如何保证?除了隐私受到威胁,《大数据时代》一书还提到了另一个隐忧:我们会不会因为根据大数据预测出我们将会做什么而受到惩罚,而实际上我们什么也没做,这就威胁到了我们的自由。

    9.越是数据扑面而来,越要懂点哲学。毋庸置疑,大数据必将在未来绽放出耀眼的光芒,特别是在人工智能和行为预测方面,大数据为我们认识世界和改造世界提供了一种新的选择和路径。然而,大数据是一种资源,也是一种工具,这取决于能够被正确使用。我们不能盲目信任数据的力量和潜能而忽略了它的局限性,更不能单纯为了数据而数据。为了更加深刻理解数据、运用数据,我们还是要懂点哲学,掌握科学的方法论。这样,可能我们会更加辩证的看待数据,而不是让数据主宰一切;更加系统的运用数据,而不是过于放大某个数据的作用;更加理性的掌控数据,而不是让数据隐忧成为现实,等等。

   10.数据是冰冷的,人性才是鲜活的。大数据将改造我们的生活,优化、提高、高效化我们的工作,并很大可能成功预测我们的行为,甚至随着人工智能的发展,真的出现《未来简史》中所预测的无用的人、没有自主的人、神人三类人。然而,人是能思想的存在,人类最本质的东西即是理性思维和自由选择。大数据终究很难抹煞人类的创造力、直觉和天赋,也很难体现人类所特有的意外、错误和冒险精神。美国前国防部长麦克纳马拉,是典型的数据控,但也不得不在一次演讲中说道:“事实上,真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图表上的百分点或者资产负债表上的数字”。我们在使用大数据这个工具时,还是应当怀有谦恭之心,铭记人性之本。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,128评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,316评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,737评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,283评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,384评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,458评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,467评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,251评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,688评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,980评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,155评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,818评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,492评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,142评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,382评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,020评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,044评论 2 352

推荐阅读更多精彩内容