成为数据科学家所需的必备技能

1.教育

数据科学家受过高等教育 - 88%至少拥有硕士学位,46%拥有博士学位 - 虽然有明显的例外,但通常需要非常强大的教育背景来培养成为数据科学家所必需的知识深度。要成为数据科学家,您可以获得计算机科学,社会科学,物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。任何这些课程的学位将为您提供处理和分析大数据所需的技能。

完成学位课程后,你还没有完成。事实是,大多数数据科学家都拥有硕士学位或博士学位,他们还进行在线培训,学习如何使用Hadoop或大数据查询等特殊技能。因此,您可以报名参加数据科学,数学,天体物理学或任何其他相关领域的硕士学位课程。您在学位课程中学到的技能将使您能够轻松过渡到数据科学。

除课堂学习外,您还可以通过构建应用程序,启动博客或探索数据分析来练习您在课堂上学到的知识,以便您了解更多信息。

2. R编程

对于数据科学R的至少一种分析工具的深入了解通常是优选的。R专为数据科学需求而设计。您可以使用R来解决数据科学中遇到的任何问题。事实上,43%的数据科学家正在使用R来解决统计问题。然而,R有一个陡峭的学习曲线。

如果您已经掌握了编程语言,那么很难学习。尽管如此,互联网上还有很多资源可以帮助学习R

技术技能:计算机科学

3. Python编码

Python是我在数据科学角色中通常看到的最常见的编码语言,以及Java,Perl或C / C ++。Python是数据科学家的一种优秀编程语言。这就是为什么O'Reilly 调查的受访者中有40%使用Python作为他们的主要编程语言。

由于其多功能性,您可以将Python用于数据科学过程中涉及的几乎所有步骤。它可以采用各种格式的数据,您可以轻松地将SQL表导入代码中。它允许您创建数据集,您可以在Google上找到所需的任何类型的数据集。

4. Hadoop平台

虽然这并不总是要求,但在许多情况下它是非常优选的。拥有Hive或Pig的经验也是一个很好的卖点。熟悉Amazon S3等云工具也很有用。CrowdFlower对3490 LinkedIn数据科学工作进行的一项研究将Apache Hadoop评为数据科学家第二重要技能,评分为49%。

作为数据科学家,您可能会遇到这样的情况,即您拥有的数据量超过系统内存或需要将数据发送到不同的服务器,这就是Hadoop的用武之地。您可以使用Hadoop快速将数据传输到各种系统上的点。那不是全部。您可以使用Hadoop进行数据探索,数据过滤,数据采样和汇总。

5. SQL数据库/编码

尽管NoSQL和Hadoop已经成为数据科学的一个重要组成部分,但仍然期望候选人能够在SQL中编写和执行复杂查询。SQL(结构化查询语言)是一种编程语言,可以帮助您执行添加,删除和从数据库中提取数据等操作。它还可以帮助您执行分析功能和转换数据库结构。

作为数据科学家,您需要精通SQL。这是因为SQL专门用于帮助您访问,通信和处理数据。当您使用它来查询数据库时,它会为您提供见解。它具有简洁的命令,可以帮助您节省时间并减少执行困难查询所需的编程量。学习SQL将帮助您更好地理解关系数据库并提升您作为数据科学家的形象。

6. Apache Spark

Apache Spark正在成为全球最受欢迎的大数据技术。它就像Hadoop一样是一个大数据计算框架。唯一的区别是Spark比Hadoop更快。这是因为Hadoop读取和写入磁盘,这使得速度变慢,但Spark将其计算缓存在内存中。

Apache Spark专为数据科学而设计,可帮助您更快地运行复杂的算法。当您处理大量数据时,它有助于传播数据处理,从而节省时间。它还有助于数据科学家处理复杂的非结构化数据集。您可以在一台机器或一组机器上使用它。

Apache spark使数据科学家能够防止数据科学中的数据丢失。Apache Spark的优势在于其速度和平台,这使得开展数据科学项目变得容易。使用Apache spark,您可以执行从数据采集到分布计算的分析。

7.机器学习和AI

大量数据科学家并不精通机器学习领域和技术。这包括神经网络,强化学习,对抗性学习等。如果你想从其他数据科学家中脱颖而出,你需要了解机器学习技术,如监督机器学习,决策树,逻辑回归等。这些技能将帮助你解决基于主要组织结果预测的不同数据科学问题。

数据科学需要在机器学习的不同领域应用技能。Kaggle在其中一项调查中发现,一小部分数据专业人员具备先进的机器学习技能,如监督机器学习,无监督机器学习,时间序列,自然语言处理,异常值检测,计算机视觉,推荐引擎,生存分析,强化学习和对抗性学习。

8.数据可视化

商业世界经常产生大量数据。这些数据需要翻译成易于理解的格式。人们自然地以图表和图形的形式理解图片而不是原始数据。一个成语说“一张图片胜过千言万语”。

作为数据科学家,您必须能够借助数据可视化工具(如ggplot,d3.js和Matplottlib以及Tableau)可视化数据。这些工具将帮助您将项目中的复杂结果转换为易于理解的格式。问题是,很多人不了解序列相关性或p值。您需要直观地向他们展示这些术语在结果中代表的含义。

数据可视化使组织有机会直接处理数据。他们可以快速掌握有助于他们抓住新商机并在竞争中保持领先地位的见解。

9.非结构化数据

数据科学家能够处理非结构化数据至关重要。非结构化数据是未定义的内容,不适合数据库表。示例包括视频,博客文章,客户评论,社交媒体帖子,视频供稿,音频等。它们是重叠的文本。对这些类型的数据进行排序很困难,因为它们没有简化。

由于其复杂性,大多数人将非结构化数据称为“黑暗分析”。使用非结构化数据可以帮助您揭示对决策有用的洞察力。作为数据科学家,您必须能够理解和操纵来自非结构化数据的非结构化数据。不同的平台。

非技术技能

10.智力上的好奇心

“我没有特殊才能。我只是充满好奇心。”

-艾尔伯特爱因斯坦。

毫无疑问,你最近到处都看到过这句话,特别是因为它与数据科学家有关。弗兰克罗描述了它的含义,并在 几个月前的客座博客中谈到了其他必要的“软技能” 。

好奇心可以被定义为获得更多知识的愿望。作为数据科学家,您需要能够提出有关数据的问题,因为数据科学家花费大约80%的时间来发现和准备数据。这是因为数据科学领域是一个发展非常快的领域,你必须学习更多以跟上节奏。

您需要通过在线阅读内容和阅读有关数据科学趋势的相关书籍来定期更新您的知识。不要被在互联网上飞来飞去的大量数据所淹没,你必须能够知道如何理解这一切。好奇心是成为数据科学家所需要的技能之一。例如,最初,您可能没有太多了解您收集的数据。好奇心将使您能够筛选数据以查找答案和更多见解。

11.商业头脑

要成为一名数据科学家,您需要对您正在从事的行业有充分的了解,并了解贵公司正在努力解决的业务问题。在数据科学方面,除了确定业务应利用其数据的新方法之外,能够识别哪些问题对于业务而言至关重要是至关重要的。

为了能够做到这一点,您必须了解您解决的问题如何影响业务。这就是您需要了解企业运营方式的原因,以便您可以将您的工作指向正确的方向。

2.沟通技巧

寻找强大数据科学家的公司正在寻找能够清晰,流利地将技术发现转化为非技术团队的人员,例如市场营销部门或销售部门。数据科学家必须使企业能够通过量化的洞察力来制定决策,此外还要了解非技术同事的需求,以便适当地纠正数据。查看 我们最近的Flash调查 ,了解有关量化专业人员沟通技巧的更多信息。

除了说出公司理解的相同语言外,您还需要使用数据讲故事进行沟通。作为数据科学家,您必须知道如何围绕数据创建故事情节,以便任何人都能轻松理解。例如,呈现数据表不如以叙事格式从这些数据中分享见解那样有效。使用讲故事将帮助您将您的发现正确地传达给您的雇主。

沟通时,请注意所分析数据中嵌入的结果和值。大多数企业主不想知道您分析的内容,他们对如何积极地影响他们的业务感兴趣。学会专注于通过沟通提供价值和建立持久的关系。

13.团队合作

数据科学家无法单独工作。您必须与公司高管合作制定战略,工作产品经理和设计师以创造更好的产品,与营销人员合作以推出更好的转换活动,与客户和服务器软件开发人员合作创建数据管道并改进工作流程。您必须与组织中的每个人(包括您的客户)合作。

从本质上讲,您将与您的团队成员合作开发用例,以便了解解决问题所需的业务目标和数据。您需要了解正确的方法来解决用例,解决问题所需的数据以及如何将结果转换并呈现给所有相关人员都能轻松理解的内容。

资源

  1. 高级学位 - 更多数据科学课程正在涌现以满足当前的需求,但也有许多数学,统计学和计算机科学课程

  2. MOOCs - CourseraUdacitycodeacademy是很好的起点。

  3. 认证 --KDnuggets 编制了一份广泛的清单

  4. Bootcamps - 有关此方法与学位课程或MOOC的比较的更多信息,请查看 Datascope Analytics数据科学家的访客博客

  5. Kaggle - Kaggle举办数据科学竞赛,在那里您可以练习,通过凌乱的现实世界数据磨练您的技能,并解决实际的业务问题。雇主认真对待Kaggle排名,因为他们可以被视为相关的,亲自动手的项目工作。

  6. LinkedIn群组 - 加入相关群组,与数据科学社区的其他成员互动。

  7. 数据科学中心和KDnuggets - 数据科学中心KDnuggets是保持数据科学行业趋势前沿的良好资源。

  8. Burtch Works研究:数据科学家的工资 - 如果您正在寻找有关当前数据的工资和人口统计数据的更多信息,请务必下载我们的数据科学家薪资研究

我确信我可能错过了一些项目,所以如果您认为有任何关键技能或资源对任何数据科学有希望的人有帮助,请随时在下面的评论中分享!

此博客部分基于:http//www.burtchworks.com/2014/11/17/must-have-skills-to-become-a-data-scientist/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,547评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,399评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,428评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,599评论 1 274
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,612评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,577评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,941评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,603评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,852评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,605评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,693评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,375评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,955评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,936评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,172评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,970评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,414评论 2 342

推荐阅读更多精彩内容

  • 1.教育 数据科学家受过高等教育 - 88%至少拥有硕士学位,46%拥有博士学位 - 虽然有明显的例外,但通常需要...
    Liam_ml阅读 527评论 0 0
  • 数据科学家应该知道很多 - 机器学习,计算机科学,统计学,数学,数据可视化,通信和深度学习。想要受雇主要求的数据科...
    Liam_ml阅读 892评论 0 10
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,030评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,870评论 0 2