Spark概述

Spark 概述
Apache Spark 是一个快速的, 多用途的集群计算系统。 它在 Java, Scala, Python 和 R 语言以及一个支持常见的图计算的经过优化的引擎中提供了高级 API。 它还支持一组丰富的高级工具, 包括用于 SQL 和结构化数据处理的 Spark SQL, 用于机器学习的 MLlib, 用于图形处理的 GraphX, 以及Spark Streaming
下载
从该项目官网的 下载页面 获取 Spark. 该文档用于 Spark 2.2.0 版本. Spark 使用了针对 HDFS 和 YARN 的 Hadoop 的 client libraries(客户端库). 为了适用于主流的 Hadoop 版本可以下载先前的 package. 用户还可以下载 “Hadoop free” binary, 并且可以 通过增加 Spark 的 classpath Spark 来与任何的 Hadoop 版本一起运行 Spark. Scala 和 Java 用户可以在他们的工程中使用它的 Maven 坐标来包含 Spark, 并且在将来 Python 用户也可以从 PyPI 中安装 Spark。
如果您希望从源码中构建 Spark, 请访问 构建 Spark.
Spark 既可以在 Windows 上又可以在类似 UNIX 的系统(例如, Linux, Mac OS)上运行。它很容易在一台机器上本地运行 - 您只需要在系统 PATH上安装 Java, 或者将 JAVA_HOME 环境变量指向一个 Java 安装目录即可。
Spark 可运行在 Java 8+, Python 2.7+/3.4+ 和 R 3.1+ 的环境上。针对 Scala API, Spark 2.2.0 使用了 Scala 2.11. 您将需要去使用一个可兼容的 Scala 版本 (2.11.x).
请注意, 从 Spark 2.2.0 起, 对 Java 7, Python 2.6 和旧的 Hadoop 2.6.5 之前版本的支持均已被删除.
请注意, Scala 2.10 的支持已经不再适用于 Spark 2.1.0, 可能会在 Spark 2.3.0 中删除。
运行示例和 Shell
Spark 自带了几个示例程序. Scala, Java, Python 和 R 示例在 examples/src/main
目录中. 要运行 Java 或 Scala 中的某个示例程序, 在最顶层的 Spark 目录中使用 bin/run-example <class> [params]命令即可.(在幕后, 它调用了 spark-submit脚本以启动应用程序)。例如,
./bin/run-example SparkPi 10

您也可以通过一个改进版的 Scala shell 来运行交互式的 Spark。这是一个来学习该框架比较好的方式。
./bin/spark-shell --master local[2]
该 --master选项可以指定为为 针对分布式集群的 master URL, 或者 local以使用 1 个线程在本地运行, 或者 local[N]以使用 N 个线程在本地运行。您应该通过使用 local来启动以便测试. 该选项的完整列表, 请使用 --help选项来运行 Spark shell。
Spark 同样支持 Python API。在 Python interpreter(解释器)中运行交互式的 Spark, 请使用 bin/pyspark
:
./bin/pyspark --master local[2]

Python 中也提供了应用示例。例如,
./bin/spark-submit examples/src/main/python/pi.py 10

从 1.4 开始(仅包含了 DataFrames APIs)Spark 也提供了一个用于实验性的 R API。 为了在 R interpreter(解释器)中运行交互式的 Spark, 请执行 bin/sparkR
:
./bin/sparkR --master local[2]

R 中也提供了应用示例。例如,
./bin/spark-submit examples/src/main/r/dataframe.R

在集群上运行该 Spark 集群模式概述 说明了在集群上运行的主要的概念。 Spark 既可以独立运行, 也可以在一些现有的 Cluster Manager(集群管理器)上运行。它当前提供了几种用于部署的选项:
Standalone Deploy Mode: 在私有集群上部署 Spark 最简单的方式
Apache Mesos
Hadoop YARN

快速跳转
编程指南:
快速入门: 简单的介绍 Spark API; 从这里开始!
Spark 编程指南: 在 Spark 支持的所有语言(Scala, Java, Python, R)中的详细概述。
构建在 Spark 之上的模块:Spark Streaming: 实时数据流处理
Spark SQL, Datasets, and DataFrames: 支持结构化数据和关系查询
MLlib: 内置的机器学习库
GraphX: 新一代用于图形处理的 Spark API。

API 文档:
Spark Scala API (Scaladoc)
Spark Java API (Javadoc)
Spark Python API (Sphinx)
Spark R API (Roxygen2)

部署指南:
集群概述: 在集群上运行时概念和组件的概述。
提交应用: 打包和部署应用
部署模式:Amazon EC2: 花费大约5分钟的时间让您在EC2上启动一个集群的脚本
Standalone Deploy Mode: 在不依赖第三方 Cluster Manager 的情况下快速的启动一个独立的集群
Mesos: 使用 Apache Mesos 来部署一个私有的集群
YARN: 在 Hadoop NextGen(YARN)上部署 Spark
Kubernetes (experimental): 在 Kubernetes 之上部署 Spark

其它文档:
配置: 通过它的配置系统定制 Spark
监控: 跟踪应用的行为
优化指南: 性能优化和内存调优的最佳实践
任务调度: 资源调度和任务调度
安全性: Spark 安全性支持
硬件挑选: 集群硬件挑选的建议
与其他存储系统的集成:OpenStack Swift

构建 Spark: 使用 Maven 来构建 Spark
给 Spark 贡献
第三方项目: 其它第三方 Spark 项目的支持

外部资源:
Spark 首页
Spark 社区 资源, 包括当地的聚会
StackOverflow tag apache-spark

Mailing Lists: 在这里询问关于 Spark 的问题
AMP Camps: 在 UC Berkeley(加州大学伯克利分校)的一系列的训练营中, 它们的特色是讨论和针对关于 Spark, Spark Streaming, Mesos 的练习, 等等。在这里可以免费获取视频, 幻灯片练习题
Code Examples: 更多示例
可以在 Spark 的子文件夹中获取 (Scala, Java, Python, R)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,390评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,821评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,632评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,170评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,033评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,098评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,511评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,204评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,479评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,572评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,341评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,893评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,171评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,486评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,676评论 2 335

推荐阅读更多精彩内容