造就数据科学家(转译)

Neil Zhu,简书ID Not_GOD,University AI 创始人 & Chief Scientist,致力于推进世界人工智能化进程。制定并实施 UAI 中长期增长战略和目标,带领团队快速成长为人工智能领域最专业的力量。
作为行业领导者,他和UAI一起在2014年创建了TASA(中国最早的人工智能社团), DL Center(深度学习知识中心全球价值网络),AI growth(行业智库培训)等,为中国的人工智能人才建设输送了大量的血液和养分。此外,他还参与或者举办过各类国际性的人工智能峰会和活动,产生了巨大的影响力,书写了60万字的人工智能精品技术内容,生产翻译了全球第一本深度学习入门书《神经网络与深度学习》,生产的内容被大量的专业垂直公众号和媒体转载与连载。曾经受邀为国内顶尖大学制定人工智能学习规划和教授人工智能前沿课程,均受学生和老师好评。

当Jeff Hammerbacher和我谈到我们的数据科学团队时,我们意识到当企业不断发展,我们都需要弄明白如何称呼团队的成员。“商业分析师”看起来太受限了。“数据分析师”是考虑的对象,但我们感觉这个称谓限制了人们所能做的事情。总之,我们团队的很多人都是专家级工程师。“研究科学家”是比较合理的职位名称,通常被Sun、HP、Xerox、Yahoo和IBM这些公司使用。然而,我们觉得大多数研究科学家从事的是比较创新和抽象的,而且工作与实验室之外的那些产品开发团队是隔离的。通常来说,实验室的研究成果能用于公司关键产品需要好几年(大部分都无法最终转化为产品)。我们组织的注意力集中在数据应用上,这些工作通常对于商业业务有着直接和巨大的影响。因此最最适合的称呼应该叫做“数据科学家”——那些使用数据和科学来创造新事物的人们。

(注意:尽管“数据科学”这个词已经有很长的历史,通常是在商务智能中出现,但是“数据科学家”却是新的东西。Jeff和我都曾询问过别人有没有见过这个称呼,结果是没人见过。)

但是你如何找到数据科学家?一旦有人问起这个,我就让他们去思考一个更加根本的问题:什么造就一个好的数据科学家?下面是我的观点:

  • 技术专长:最佳的数据科学家通常在某个科学领域具备很深的技术专长。
  • 好奇心:一种透过表象、发现和提取一个问题,使之能够通过建立在一组清晰的假设集合上从而可以对其进行验证。
  • 故事性:能够借助数据讲出一个故事,并有效地进行交流。
  • 聪慧:能够从不同的、更有创造性的角度来观察一个问题。

人们常常假设数据科学家需要计算机科学的背景。以我个人经历,并不是这样的:我们的最优秀的数据科学家有各种背景。LinkedIn的People You May Know的发明者就是一个实验物理学家。我团队的一个计算化学家曾经解决了一个有了100多年历史的水的能量状态问题。一个海洋作图师在我们做欺诈行为分析的过程中产生了重要的影响。可能最令人诧异的是神经外科医生摇身一变而为一个发现数据中潜在的丰富趋势(trend)的魔术师。

所有顶尖的数据科学家都有着与生俱来的好奇心。他们的好奇心宽广远超每天的活动。他们对公司、商务、产业和技术很多不同的领域都有浓厚的兴趣。所以,他们经常可以将分隔开的领域以一种全新的方式整合起来。例如,我曾遇到数据科学家观察研究销售过程从而认识到以全新方式来使用数据,可以让销售团队变得更加高效。还有一些数据科学家将新颖的DNA序列技术应用到欺诈行为检测上。

是什么将这些人统一起来?他们都拥有强大的技术背景。大多数有着较高的学位(当然我也曾经和若干卓越的没能大学毕业的数据科学家一起工作过)但是实际上真正统一的线索是所有人在开始现实工作前都不得不处理大量的数据。

当我研究生一年级时,我对天气预报很感兴趣。我曾想过如何去理解天气的复杂性,但是需要大量的数据。大多数数据在线可获得,但是由于其规模,数据总是以特殊的形式存在并且遍布在不同的系统上。为了使数据能为我所用,我创建了一个系统可以兼顾到部门的每台电脑(从上午1点到8点)在那段时间内,系统可以获取、清洗和处理数据。一旦完成这些工作,最终所得的数据集将轻易被放入一个计算机的内存中。这就是全部的秘密。这项繁重的工作是我进行下一步研究的必备步骤。好的数据科学家深深地明白清洗和准备在某种程度上意味着问题所在,并不是简简单单的准备工作。

下面是一些数据科学家需要得到训练的例子:

  1. 找到丰富的数据源
  2. 处理存储大数据的硬件、软件和带宽限制
  3. 清洗数据,确保数据的一致性
  4. 将多个数据集合混合起来
  5. 可视化数据
  6. 建立丰富的工具保证其他人高效地使用数据
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,794评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,050评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,587评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,861评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,901评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,898评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,832评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,617评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,077评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,349评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,483评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,199评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,824评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,442评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,632评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,474评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,393评论 2 352

推荐阅读更多精彩内容