登录注册写文章

Spark简介

Spark简介

Spark作为第二代大数据处理工具，跟hadoop对比，它是基于内存的，所以在迭代计算方便速度有了很大提升。我用到的主要是SparkCore,SparkSQL,SparkStreaming。Spark以Rdd作为基础，Rdd是一个分布式的容器，类似于java中的String数组，但是它是分布式的。Rdd中有各种算子，总的来说分为转化算子和行动算子，转换算子不触到真正的计算，当执行到行动算子时才会触发真正的计算。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

spark大数据架构初学入门基础详解
Spark是什么 a)是一种通用的大数据计算框架 b)Spark Core离线计算 Spark SQL交互式查询 ...
Alukar阅读 5,995评论 0赞 19
spark大数据架构初学入门基础详解
Spark是什么 a)是一种通用的大数据计算框架 b)Spark Core离线计算 Spark SQL交互式查询 ...
三万_chenbing阅读 7,184评论 1赞 17

Spark简介以及架构
Spark是什么？Spark是基于内存计算的大数据并行计算框架.Spark基于内存计算，提高了在大数据环境下数据处...
Bloo_m阅读 19,290评论 0赞 7
第一讲 spark简介
本章要点：什么是spark Spark生态圈 RDD编程模型 1.1 什么是Spark Apache Spark...
农民工进城阅读 1,895评论 1赞 1
Spark 简介
spark 特点 spark是基于内存计算的大数据并行计算框架具有如下特点：运行速度快Spark使用先进的DA...
博弈史密斯阅读 3,928评论 0赞 3

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文