2015年最热门的职业:关于数据科学家的概念、职责、技能素养和学习资源完全手册

本文由SocialBeta根据一亩三分地Warald (Email: iamxiaoning@gmail.com;博客:http://www.1point3acres.com)数据科学系列文章、Todd Wasserman《So you wanna be a data scientist? A guide to 2015′s hottest profession》和知乎网友Han Hsiao《如何成为一名数据科学家》话题答案编译整理。

你是精通数学、擅长Python并对某一特定行业有着深入理解的Geek么?

如果你的答案是Yes,不妨考虑一下21世纪最性感的职业——数据科学家。

领英最近评选出了2014年前25大最受欢迎职场技能,其中“统计分析与数据挖掘”名列第一。

而根据Glassdoor的报告显示,数据科学家的平均薪水高达118709美元,与之相对应的是,程序猿的平均薪水只有64537美元。麦肯锡的研究预测,截止2018年,美国将面临14万到19万拥有深度分析技能的人才缺口,同时懂得运用大数据作出有效决策的分析师和经理也将会有150万人次的短缺。由此可见,未来数据科学家的前景将非常乐观。本文就从数据科学家的定义、工作内容和所需技能讲起,告诉你如何踏上数据科学家之路。

数据科学家的定义

数据科学(Data Science)是从数据中提取知识的研究。数据科学集成了多种领域的不同元素,包括信号处理,数学,概率模型技术和理论,机器学习,计算机编程,统计学,数据工程,模式识别和学习,可视化,不确定性建模,数据仓库,以及从数据中析取规律和产品的高性能计算。数据科学并不局限于大数据,但是数据量的扩大诚然使得数据科学的地位越发重要。

营销人最为关注的数据驱动营销(Data Driven Marketing)就是数据科学在营销领域的运用。在此引用一亩三分地W大的博文《现在很火的数据科学到底是什么?你对做DATA SCIENTIST感兴趣吗?》,阐述一个与广告和营销密切相关的应用场景:

一家公司要打广告,有多个选择:搜索引擎、各种风格迥异的social media、传统媒体,到底应该把钱投入到那里会带来最大的回报?

至于伴随着你的网页点击,amazon调整产品显示的顺序,推荐你最感兴趣的产品,或者你修改LinkedIn Profile里的skills & projects,这家公司自动给你推荐匹配的工作、从你的connections里查找可能帮忙的人,这些聪明、精准又实时的决策背后,都是data science。

数据科学家,顾名思义就是数据科学的从业者。这个头衔首次出现于2008年,由D.J. Patil和Jeff Hammerbacher所提出,他们后来分别成为了LinkedIn和Facebook的数据和分析团队的负责人。目前已经有数千位数据科学家供职于创业公司和成熟的大型企业。数据科学家在行业中的忽然走俏,反映了这样一个现状,企业需要处理的信息正以从未遇见过的规模和渠道涌现。

曾经投资过Facebook,LinkedIn的格雷洛克风险投资公司把数据科学家描述成“能够管理和洞察数据的人”。在IBM的网站上,数据科学家的角色被形容成“一半分析师,一半艺术家”。他们代表了商业或数据分析这个角色的一个进化。

数据科学家主要做什么

数据科学家能够驾驭多种职责的工作。《数据之美 Beautiful Data》的作者Jeff Hammerbacher在书中提到:

“对于 Facebook 的数据科学家,我们发现传统的头衔如商业分析师、统计学家、工程师和研究科学家都不能确切地定义我们团队的角色。该角色的工作是变化多样的:

在任意给定的一天,团队的一个成员可以用 Python 实现一个多阶段的处理管道流、设计假设检验、用工具R在数据样本上执行回归测试、在 Hadoop 上为数据密集型产品或服务设计和实现算法,或者把我们分析的结果以清晰简洁的方式展示给企业的其他成员。为了掌握完成这多方面任务需要的技术,我们创造了数据科学家这个角色。”

游戏公司Playstudios 的数据科学家Jon Greenberg说:“每天我都管理着一堆与业务相关的Dashboard——用以向公司汇报我们的用户正在做什么。”如今担任经理的Jon比从前花在编程上的时间更少了。通常,他将数据从Hadoop中提取出来,然后用R来运行,最终以可视化的形式来呈现。

Jon热爱的是这份工作本身。“想成为数据科学家,首先,你得有一个分析型的头脑,你需要头脑灵活、有好奇心、充满创意,并且总能想到多种解决问题的方法。这份工作的缺点是清洗数据所花费的时间太长,这一部分并不那么令人兴奋。”

数据科学家的工作可能不像人们想象得那样酷炫有趣。由于Data是一切分析的基础,所有公司都会雇佣一些人集中做最基本的数据收集和整理,主要用SQL,可能写一些简单的程序、做一些粗浅的分析,但是整体上工作比较枯燥无聊,也可以说是“底层人群”;用Machine Learning或者统计建模的则属于高级人群;同时,分析数据要用到各种软件工具,可能需要高级的软件系统来支持experiments,自然也就需要软件工程师来支持。分析结果最终要用来帮助公司盈利,所以公司的管理层和直接带来盈利的部门(sales、marketing、business development)也会参与,并作出最终的决策(decision making)。

数据科学家所需的技能素养

“数据科学家应该是艺术和科学的结合体。科学的部分是显而易见的:数学/统计、编程等等硬技能。艺术的部分也是同等重要——创造力、深层语境理解。两部分组合在一起才能造就一个出色的问题解决者。”独立数据科学家及咨询顾问Anmol Rajpurohit如是说。他同时认为,对于数据科学家来说,懂得通用的编程技能比成为某一特定语言的编程大师更为重要,因为技术发展的速度令人惊奇,而且总有新的程序语言会冒出来代替旧语言。

数据科学家知识谱系图

数据科学家需要具备的能力,可以用Thomas H. Davenport(埃森哲战略变革研究院主任) 和 D.J. Patil(美国科学促进会科学与技术政策研究员,为美国国防部服务)的话来总结:

•数据科学家倾向于用探索数据的方式来看待周围的世界。(好奇心)

•把大量散乱的数据变成结构化的可供分析的数据,还要找出丰富的数据源,整合其他可能不完整的数据源,并清理成结果数据集。(问题分体整理能力)

新的竞争环境中,挑战不断地变化,新数据不断地流入,数据科学家需要帮助决策者穿梭于各种分析,从临时数据分析到持续的数据交互分析。(快速学习能力

•数据科学家会遇到技术瓶颈,但他们能够找到新颖的解决方案。(问题转化能力)

•当他们有所发现,便交流他们的发现,建议新的业务方向。(业务精通)

•他们很有创造力的展示视觉化的信息,也让找到的模式清晰而有说服力。(表现沟通能力)

•他们会把蕴含在数据中的规律建议给Boss,从而影响产品,流程和决策。(决策力)

Han Hsiao在知乎《如何成为一名数据科学家》一帖中将数据科学家的硬性技能作了如下归类,并附有资源链接,供有志于成为数据科学家的朋友参考:

(1) 计算机科学

一般来说,数据科学家大多要求具备编程、计算机科学相关的专业背景。简单来说,就是对处理大数据所必需的Hadoop、Mahout等大规模并行处理技术与机器学习相关的技能。

零基础学习 Hadoop 该如何下手?

想从事大数据、海量数据处理相关的工作,如何自学打基础?

(2) 数学、统计、数据挖掘等

除了数学、统计方面的素养之外,还需要具备使用SPSS、SAS等主流统计分析软件的技能。其中,面向统计分析的开源编程语言及其运行环境“R”最近备受瞩目。R的强项不仅在于其包含了丰富的统计分析库,而且具备将结果进行可视化的高品质图表生成功能,并可以通过简单的命令来运行。此外,它还具备称为CRAN(The Comprehensive R Archive Network)的包扩展机制,通过导入扩展包就可以使用标准状态下所不支持的函数和数据集。R语言虽然功能强大,但是学习曲线较为陡峭,个人建议从python入手,拥有丰富的statistical libraries,NumPySciPy.orgPython Data Analysis Librarymatplotlib: python plotting

如何系统地学习数据挖掘?

做数据分析不得不看的书有哪些?

怎么学习用R语言进行数据挖掘?

(3) 数据可视化(Visualization)

信息的质量很大程度上依赖于其表达方式。对数字罗列所组成的数据中所包含的意义进行分析,开发Web原型,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能之一。

有哪些值得推荐的数据可视化工具?

(4) 跨界为王

麦肯锡认为未来需要更多的“translators”,能够在IT技术,数据分析和商业决策之间架起一座桥梁的复合型人才是最被人需要的。”translators“可以驱动整个数据分析战略的设计和执行,同时连接的IT ,数据分析和业务部门的团队。如果缺少“translators“,即使拥有高端的数据分析策略和工具方法也是于事无补的。

天才的“translators”非常罕见。但是大家可以各敬其职,数据战略家可以使用IT知识和经验来制定商业决策,数据科学家可以结合对专业知识的深入理解使用IT技术开发复杂的模型和算法,分析顾问可以结合实际的业务知识与分析经验聚焦下一个行业爆点。

哪些公司在招聘数据科学家

谷歌、亚马逊、Netflix和Uber这类数据驱动型科技公司都拥有数据科学小组。而现在,连Neiman Marcus、沃尔玛、Clorox和Gap这样的非科技公司也开始寻觅数据科学家来为公司找到新趋势下的商机。

一亩三分地W大对美国工业界也颇有了解,他在《美国哪些公司招聘DATA SCIENTIST?看重数据科学家什么方面的背景?》一文中提到,Information Technology、Insurance、Marketing/BI这三个行业是招募数据科学家的主力。而在不同的公司,同样是做data scientist或者analytics的工作,要求的技能和工作的内容也非常不同。

比如Google前段时间招聘quantitative analyst跟marketing部门合作,这个部门据说有40多个PhD,来自各个专业,设计各种模型和实验来帮助google盈利;最让人惊奇的是,Google每年收200万份简历,HR筛选不过来,干脆也招个做machine learning的高手,要用机器学习来处理世界各地提交的简历;微软Online Service Division有跟marketing更接近的Data Scientist,也有很多学统计或者IE出身的Applied Scientist做randomized controlled experiment;而LinkedIn、Facebook的data scientist感觉要求Java编程技术熟练,可能学Computer Science出身的最适合;Amazon强大的recommendation system,你浏览了啥产品,amazon立刻customize你的页面,全是极其相关的东西推荐给你买。

Insurance行业招的是Predictive Modeler,他们的总体目标就是要基于数据,预测在不同客户身上收多少保险费能最大化收益、optimize profits,所有相关专业的它们都考虑,比如波士顿城里的liberty mutual这家大公司,predictive analytics team里,OR、Stat、Math、Economics、Machine Learning等各种背景的人都有,论资历、学历,从比较新的博士到有经验的硕士都有。

同时,传统行业也在加强analytics(他们一般不叫data science),比如做Texas一家工业废油处理公司的analytics team,目前只是用很基本的统计分析对市场做合理的segmentation,就让公司在某个地区的利润增长超过20%;俄亥俄生产化肥的公司、常春藤大学里校友办公室负责募捐的、美国全国各地的超市等,都在过去的两年里尤其是2012年,拼命的组建或者扩充自己的analytics team,分析数据,用数据来支持决策。这类工作,一般更接近Business Intelligence(BI)和Marketing。

数据科学家的前景

《哈佛商业评论》引用Gartner最新的研究报告指出,67%的营销部门准备在未来两年内增加与技术相关的预算。更具体的数据是,61%的营销部门准备提高在技术上的资本投入额度,而65%则准备提高支付给技术服务供应商的费用。

未来,更多的商务决策会建立在data analytics的基础上,今后会有一些能力很强的data scientist,借着风头,从技术人员成长为business leaders。而且加盟传统行业、做统计分析,会更容易出头。

总的来说,作为一个有广阔前景、代表着未来方向的职业,data scientist今后发展空间很大,同时这类工作又需要多个专业的技能,最近几年开始做data scientist的,大体都算是有first mover advantage,前景很好。

数据科学家相关专业、课程和资源

哥伦比亚大学

Master of Science in Data Science

西北大学

Master of Science in Analytics

纽约大学

Master of Science in Data Science

伊利诺伊大学香槟分校

Master of Science in Statistics: Analytics Concentration

Coursera.org:统计学。

Coursera.org:机器学习。

Coursera.org:数据分析的计算方法。

Coursera.org:大数据。

Coursera.org:数据科学导论。

Coursera.org:数据分析。

名校课程,需要一定的英语基础和计算机基础:

Statistical Thinking and Data Analysis:麻省理工学院的统计思维与数据分析课。概率抽样,回归,常见分布等。

Data Mining | Sloan School of Management:麻省理工学院的数据挖掘课程,数据挖掘的知识以及机器学习算法。

Rice University Data Visualization:莱斯大学的数据可视化,从统计学的角度分析信息可视化。

Harvard University Introduction to Computing, Modeling, and Visualization: 哈佛大学,如何在数学计算与数据交互可视化之间架起桥梁。

UC Berkeley Visualization:加州大学伯克利分校数据可视化。

Data Literacy Course — IAP:两个MIT的数据研究生,如何分析处理可视化数据。

Columbia University Applied Data Science:哥伦比亚大学,数据分析方法。需要一定的数据基础。

SML: Systems:加州大学伯克利分校,可扩展的机器学习方法。从硬件系统,并行化范式到MapReduce+Hadoop+BigTable,非常全面系统。

业界有名的数据科学家名录

Larry Page,谷歌CEO。

Jeff Hammerbacher,Cloudera的首席科学家和DJ Patil,Greylock风险投资公司企业家。

Sebastian Thrun,斯坦福大学教授和Peter Norvig,谷歌数据科学家。

Elizabeth Warren,Massachusetts州美国参议院候选人。

Todd Park,人类健康服务部门首席技术官。

Sandy Pentland,麻省理工学院教授。

Hod Lipson and Michael Schmidt,康奈尔大学计算机科学家。

参考链接:

So you wanna be a data scientist? A guide to 2015′s hottest profession

哈佛商业:21世纪最性感的职业-数据科学家

如何成为一名数据科学家?

现在很火的数据科学到底是什么?你对做DATA SCIENTIST感兴趣吗?

数据科学家data scientist需要的三大核心技能:Data Hacking、Problem Solving and Communication

想成为数据科学家Data Scientist,需要申请读什么专业?

美国哪些公司招聘Data Scientist?看重数据科学家什么方面的背景?

MARKETING IS THE NEXT BIG MONEY SECTOR IN TECHNOLOGY, 需要统计分析+软件编程人才(上)

Marketing is the next big money sector in technology, 需要统计分析+软件编程人才(中)

Marketing is the next big money sector in technology, 需要统计分析+软件编程人才(下)

数据科学家的职业发展前景如何?

(原文:http://www.socialbeta.com/articles/guide-how-to-be-a-data-scientist.html)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,324评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,303评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,192评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,555评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,569评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,566评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,927评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,583评论 0 257
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,827评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,590评论 2 320
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,669评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,365评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,941评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,928评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,159评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,880评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,399评论 2 342

推荐阅读更多精彩内容