关于Azure Databricks 你必须要知道的几件事

什么是 Azure Databricks

Azure Databricks是一个完全托管的、基于云的大数据分析和机器学习平台,通过简化搭建企业级生产环境数据应用程序的流程,使开发人员能够加速导入数据智能和应用创新。Azure Databricks是由Apache Spark的创始团队和微软共同打造的,它为数据科学和数据工程团队提供了一个用于大数据处理和机器学习的统一平台。

通过将Databricks的强大功能与微软Azure平台的企业级和安全性相结合,Azure Databricks简化了大规模Spark工作负载的运营。Databricks是一款端到端的、可管理的、针对云优化的Apache Spark平台。Azure Databricks提供了一个交互式工作区,支撑数据工程师、数据科学家和机器学习工程师之间的协作。Azure Databricks 系统架构如下图所示:


Azure Databricks 中的Spark 生态

Azure Databricks 包含完整的开源 Apache Spark 群集技术和功能。 Azure Databricks 中的 Spark 包括下列组件:

  ✦ Spark SQL 和 DataFrames:Spark SQL 是用于处理结构化数据的 Spark 模块。 DataFrames是基于列存储的分布式数据集合。 它在概念上相当于关系型数据库中的表,或R/Python 中的DataFrames。

  ✦ 流式处理(Streaming):实时数据处理和分析,适用于分析与交互式应用程序。 可以与 HDFS、Flume 和 Kafka 集成。

  ✦ MLlib:由常见学习算法和实用工具(包括分类、回归、群集、协作筛选、维数约简以及底层优化基元)组成的机器学习库。

  ✦ GraphX:图形和图形计算,适用于从认知分析到数据探索的广泛用例。

  ✦ Spark Core API:包含对 R、SQL、Python、Scala 和 Java 的支持。

Azure Databricks关键企业级能力解读

Azure Databricks的架构可以保证跨功能团队的安全协作,同时保留由Azure Databricks管理的大量后端服务,这样使用者就可以专注于数据科学、数据分析和数据工程任务。

尽管架构可能因自定义配置而有所不同 (例如,当Azure Databricks工作区部署到自己的虚拟网络时,也称为VNet注入),下面的架构图表示了Azure Databricks最常见的结构和数据流。

Azure Databricks企业级数据安全设计

控制平面包括Azure Databricks在其自身的Azure帐户中管理的后端服务。用户运行的任何命令都将存在于控制平面中,而用户的代码将完全加密。用户保存的命令驻留在数据平面中。

数据平面由用户的Azure帐户管理,它是用户数据驻留的地方。这也是处理数据的地方。此图假设数据已经被摄入到Azure数据库中,但是用户可以从外部数据源摄入数据,例如事件(Event)数据、流(Streaming)数据、物联网(IoT)数据等等。用户也可以使用Azure Databricks连接器连接到Azure帐户之外的外部数据源进行存储。

用户的数据总是驻留在数据平面的Azure帐户中,而不是控制平面,因此用户总是保持对数据的完全控制和所有权,而不需要锁定。

Azure Databricks典型数据分析应用场景

在微软云Azure中进行大数据分析时,原始或结构化的数据将通过 Azure 数据工厂以批量的形式引入 Azure,或者通过 Apache Kafka、事件中心(Event Hub)或 IoT 中心进行准实时的流式传输。这些数据摄入模式将数据将驻留在数据湖(Data Lake)的各种存储位置中。 在运行分析工作流时,用户可以使用 Azure Databricks 从数据湖的各种数据源读取数据,并使用 Spark 将数据进行处理,再将之放入Azure Cosmos DB,Azure SQL,Azure DB for MySQL或 Azure SQL 数据仓库等服务中,以便于被下游各种数据消费者消费。参考架构如下图所示。


Azure Databricks能力清单

Azure Databricks 拥有一个安全的云上高可用生产环境,由 Spark 专家进行管理和提供支持。 用户可以:

  ✦ 在几秒钟内创建群集。

  ✦ 动态自动扩展和缩减群集并在团队中共享群集。

  ✦ 通过调用 REST API 以编程方式使用群集。

  ✦ 使用基于 Spark 的安全数据集成功能,在不用集中化的情况下统一数据。

  ✦ 及时获得每个版本中的最新 Apache Spark 功能。

Azure Databricks 工作区(Workspace

构建在完整的 Spark 功能基础之上,提供一个完全托管的云平台,其中包括:

  ✦ 完全托管的 Spark 群集

  ✦ 用于探索和可视化的交互式工作区

  ✦ 一个为现有的Spark应用程序提供支持的平台

Databricks 运行时(Runtime

  ✦ Azure Databricks 运行时构建在 Apache Spark 的基础之上,是Spark 创始团队专门针对 Azure 云以原生方式构建和优化的的。

  ✦ Azure Databricks 通过高度抽象化彻底消除了基础结构复杂性,无需专业知识就能设置和配置大数据分析基础设施。

  ✦ 对于性能敏感的生产作业而言,Azure Databricks 通过 I/O 层和处理层 (Databricks I/O) 的各种优化提供了一个优于开源版本20-50倍的 Spark 引擎。

云上大数据协同分析

  ✦ 通过协作和集成式环境,Azure Databricks 简化了在 Spark 中浏览数据、制作原型和运行数据驱动型应用程序的过程。

  ✦ 通过简单的数据浏览确定如何使用数据。

  ✦ 在以 R、Python、Scala 或 SQL 编写的笔记本中记录进度。

  ✦ 几步内即可实现数据可视化,可以使用熟悉的工具,例如 Matplotlib、ggplot 或 d3。

  ✦ 使用交互式仪表板创建动态报告。

  ✦ 在使用 Spark 的同时与数据交互。


参考:

https://docs.microsoft.com/zh-cn/azure/databricks/getting-started/overview

https://docs.microsoft.com/zh-cn/azure/databricks/scenarios/what-is-azure-databricks-ws

https://docs.microsoft.com/zh-cn/azure/databricks/scenarios/what-is-azure-databricks


获取云上规模化分析白皮书

https://azure.microsoft.com/zh-cn/resources/cloud-analytics-with-microsoft-azure/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容