成为大数据工程师所需的技能

我们大多数人对数据工程师是谁有想法,但我们对大数据工程师的角色和责任感到困惑。一旦我们开始用适当的技能集映射这些角色和职责,并找到最有效和最有效的学习路径,这种歧义就会增加。这个"大数据工程师技能"博客将帮助您了解数据工程师的不同职责。因此,我将用适当的技能来规划这些职责——将引导您通过适当的学习路径。

让我们从了解谁是数据工程师开始。

谁是数据工程师?

简单地说,数据工程师是开发、构建、测试和维护大规模处理系统的完整体系结构的人。

接下来,让我们进一步深入查看数据工程师的工作角色。

数据工程师是做什么的?

数据工程师的工作角色中包含的关键任务包括:

设计、开发、建造、安装、测试和维护完整的数据管理和处理系统。

构建高度可扩展、健壮和容错的系统。

负责完整的 ETL(提取、转换和加载)过程。

确保架构的规划方式满足所有业务需求。

发现数据采集的各种机会,探索使用现有数据的新方法。

提出提高整个系统数据质量、可靠性和效率的方法。

通过将各种编程语言和工具集成在一起,创建完整的解决方案。

创建数据模型以降低系统复杂性,从而提高效率和降低成本。

部署灾难恢复技术

将新的数据管理工具和技术引入现有系统,使其更加高效。

接下来,我想解决一个非常常见的困惑,即数据与大数据工程师之间的差异。

数据工程师和大数据工程师之间的差异

我们正处在数据革命的时代,数据是21世纪的燃料。各种数据源 – 过去二十年中,许多技术已经发展起来, 主要来源是 NoSQL 数据库和大数据框架。

随着大数据在数据管理系统中的出现,数据工程师现在必须处理和管理大数据,并且其角色已升级为大数据工程师。由于大数据,整个数据管理系统变得越来越复杂。因此,现在大数据工程师必须学习多个大数据框架 - NoSQL 数据库,以创建、设计和管理处理系统。

在这个大数据工程师技能博客中,让我们了解大数据工程师的责任。这将有助于我们使用所需的技能集映射数据工程师职责。

数据工程师职责

数据引入

数据引入意味着从各种源获取数据,然后将其引入数据湖。有多种数据源具有不同的格式和数据结构。

数据工程师需要从源中有效地提取数据的技能,这可以包括不同的数据引入方法,如批处理和实时提取。还有各种其他技能可以使数据引入更有效率,如增量加载、并行加载数据等。

当涉及到大数据世界时,随着数据量开始加速,数据引入变得更加复杂, 数据也以不同的格式存在。数据工程师还需要了解数据挖掘和不同的数据引入 API 来捕获和将数据注入数据湖。

数据转换

数据始终以原始格式存在,不能直接使用。它需要从一种格式转换为另一种格式,或者根据用例从一种结构转换为另一种结构。数据转换可以是一个简单或复杂的过程,具体取决于数据源、数据格式和所需输出的多样性。这可能包括各种工具,以及不同语言的自定义脚本,具体取决于数据的复杂性、结构、格式和体积。

性能优化

构建一个既可扩展又高效的系统是一项具有挑战性的工作。数据工程师需要了解如何提高单个数据管道的性能, 优化整个系统。

再次,当我们处理大数据平台时,性能成为一个主要因素。大数据工程师需要确保优化从查询执行到通过报表和交互式仪表板可视化数据的整个过程。这需要各种概念,如分区、索引、非规范化等。

除此之外,数据工程师工作基于行业使用的工具和技术,可以承担各种责任。

总结大数据工程师的职责:

设计、创建、构建和维护数据管道

聚合和转换来自各种数据源的原始数据,以满足功能和非功能性业务需求

性能优化:自动化流程、优化数据交付和重新设计完整架构以提高性能。

使用大数据框架和 NoSQL 数据库处理、转换和管理大数据。

构建完整的基础架构以引入、转换和存储数据,以便进一步分析和业务需求。

如果您将查看和比较不同的大数据工程师职位描述,您会发现大多数职位描述都基于现代工具和技术。在本大数据工程师技能博客中,让我们看一下将聘请您为大数据工程师所需的技能。

大数据工程师技能:成为大数据工程师所需的技能

大数据框架/基于 Hadoop 的技术:随着大数据在 21 世纪初的兴起,一个新的框架诞生了,该框架不仅以分布式方式存储大数据,而且还并行处理数据。

Hadoop 生态系统中有许多工具,可满足不同目的 – 属于不同背景的专业人士。

对于大数据工程师来说,掌握大数据工具是必须的。您需要掌握的一些工具包括:

HDFS(Hadoop 分布式文件系统):顾名思义,它是 Hadoop 的存储部分,它将数据存储在分布式群集中。作为 Hadoop 的基础,HDFS 知识是开始使用 Hadoop 框架的必备知识。

YARN:YARN 通过将资源分配给不同的应用程序并安排作业来执行资源管理。YARN 是在 Hadoop 2.x 中引入的。随着 YARN 的引入,Hadoop 变得更加灵活、高效和可扩展。

MapReduce:MapReduce 是一种并行处理范例,它允许在分布式 Hadoop 存储(即 HDFS)之上并行处理数据。

PIG – HIVE:蜂巢是 HDFS 之上的数据仓库工具。Hive 为 SQL 背景的专业人员提供服务以执行分析。而 Apache Pig 是一种高级脚本语言,用于 Hadoop 之上的数据转换。数据分析器通常使用 Hive 创建报告,而 Pig 则被研究人员用于编程。如果您熟悉 SQL,则两者都很容易学习。

Flume & Sqoop: Flume 是一种用于将非结构化数据导入 HDFS 的工具,而 Sqoop 用于从 RDBMS 导入和导出结构化数据到 HDFS。

动物园管理员:动物园管理员充当在 Hadoop 环境中运行的分布式服务的协调人。它有助于配置管理和同步服务。

Oozie:Oozie 是一个调度程序,它将多个逻辑作业绑定在一起,并有助于完成一个完整的任务。

实时处理框架 (Apache Spark):实时处理与快速操作是时间的需要.要么是信用卡欺诈检测系统,要么是推荐系统,每个人都需要实时处理。数据工程师了解实时处理框架非常重要。Apache Spark 是一个分布式实时处理框架。它可以很容易地与利用 HDFS 的 Hadoop 集成。您可以参考 Edureka 的 Hadoop 和 Spark 视频,以获得全面的知识。

数据库体系结构:最突出的数据源之一是数据库。对于数据工程师来说,了解数据库设计和数据库体系结构(如 1 层、2 层、3 层和 n 层)至关重要。数据模型和数据架构也是数据工程师应具备的关键技能之一。

基于 SQL 的技术(例如 MySQL):结构化查询语言用于构建、操作和管理存储在数据库中的数据。当数据工程师与关系数据库密切合作时,他们需要对 SQL 具有强大的命令。PL/SQL 在行业中也占有显著地位。PL/SQL 在 SQL 之上提供程序编程功能。

NoSQL 技术:随着组织的要求增长,超出了结构化数据的范围,因此引入了 NoSQL 数据库。它可以存储大量的结构化、半结构化和非结构化数据,根据应用程序要求快速迭代和敏捷结构。

一些使用最突出的数据库是:

HBase 是面向列的 NoSQL 数据库,位于 HDFS 之上,非常适合可扩展和分布式大数据存储。它适用于具有优化的基于读取和范围的扫描的应用。它提供了从 CAP 的 CP(一致性和分区)。

Cassandra 是一个高度可扩展的数据库,具有增量可扩展性。卡桑德拉最好的部分是管理最少,没有单点失败。 它适用于快速和随机、读取和写入的应用程序。它提供 CAP 的 AP(可用和分区)。

MongoDB 是面向文档的 NoSQL 数据库,该数据库没有架构,即您的架构可以随着应用程序的增长而发展。它还为高性能和故障容差复制提供完整的索引支持。它有一个主从架构 – 提供 CAP 的 CP。它被 Web 应用程序和半结构化数据处理严格使用。

Python/R:各种编程语言可以服务于相同的目的。一种编程语言的知识就足够了,因为味道变了,但逻辑保持不变。如果您是初学者,您可以继续使用 Python,因为它的语法简单和良好的社区支持,因此很容易学习。而R有一个陡峭的学习曲线,这是由统计学家开发的。R 主要由分析师和数据科学家用于执行数据分析。

ETL/数据仓库解决方案(信息学):数据仓库对于管理来自异构源的大量数据非常重要,您需要应用 ETL(提取转换负载)。数据仓库用于数据分析和报告,是商业智能中非常重要的一部分。对于大数据工程师来说,掌握数据仓库或 ETL 工具非常重要。掌握一个后,它变得容易学习新的工具,因为基本保持不变。

Informatica – 塔伦德是业内使用的两种知名工具。Informatica – 塔伦德开放式工作室是具有ETL架构的数据集成工具。塔伦德的主要好处是它支持大数据框架。我建议你从塔伦德开始,因为在此学习后,任何DW工具都会成为你的一块蛋糕。

使用 UNIX、Linux、Solaris 或 MS Windows – 使用全行业的各种操作系统。Unix – Linux 是一些使用突出的操作系统 – 大数据工程师至少需要掌握其中一个操作系统。

除了了解完整的数据流和业务模式之外,成为数据工程师的动机之一是薪水。

大数据工程师工作与薪水

"大数据工程师"的平均工资从94,944美元到126,138美元不等。根据Glassdoor的数据,美国高级数据工程师的全国平均工资为181,773美元。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,386评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,142评论 3 394
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,704评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,702评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,716评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,573评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,314评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,230评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,680评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,873评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,991评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,706评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,329评论 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,910评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,038评论 1 270
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,158评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,941评论 2 355