Apache Spark是用于分布式计算的通用框架,为批处理和交互式处理提供高性能的服务。 它公开了Java,Python和Scala的API,包括Spark核心和几个相关项目:
<li> Spark SQL ** - 用于处理结构化数据的模块。 允许您无缝地混合SQL查询与Spark程序。
<li> Spark Streaming - API允许您构建可扩展d的容错的流应用程序。
<li>MLlib ** - 实现通用机器学习算法的API。
<li>GraphX - API和图形并行计算。
您可以通过使用交互式shell或通过提交应用程序,在本地运行Spark应用程序或在集群中运行分布式程序。 交互式运行Spark应用程序通常在数据探索阶段和临时分析期间执行。
要运行分布在集群中的应用程序,Spark需要一个集群管理器。 Cloudera支持两个集群管理器:YARN和Spark Standalone。 当在YARN上运行时,Spark应用程序进程由YARN ResourceManager和NodeManager角色管理。 当在Spark Standalone上运行时,Spark应用程序进程由Spark Master和Worker角色管理。
Unsupported Features
不支持以下Spark功能:
<li>Spark SQL:
- Thrift JDBC/ODBC server
- *Spark SQL CLI *
<li>Spark Dataset API
<li>SparkR
<li>GraphX
<li>Spark on Scala 2.11
<li>Mesos cluster manager
Related Information
<li>Managing Spark
<li>Monitoring Spark Applications
<li>Spark Authentication
<li>Spark Encryption
<li>Cloudera Spark forum
<li>Apache Spark documentation