spark.1

Spark的组成：
SparkCore：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度，RPC，序列化和压缩，并为运行在其上的上层组件提供API
SparkSQL：Spark SQL是Saprk来操作结构化数据的程序包，可以让我们使用SQL语句的方式来查询数据，Spark支持多种数据源，包含hive表，parquest以及json等内容。
SparkStreaming：Spark提供的实时数据进行流式计算的组件。
MLlib：机器学习算法的实现库。
GraphX：提供一个分布式图计算框架，能高效进行图计算。
BlinkDB：用于在海量数据上进行交互式SQL的近似查询引擎。
Tachyon：以内存为中心高容错的分布式文件系统。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。