Spark大数据分析框架的核心是什么？

Spark大数据分析框架的核心部件包含RDD内存数据结构、Streaming流计算框架、GraphX图计算与网状数据挖掘、MLlib机器学习支持框架、Spark SQL数据检索语言、Tachyon文件系统、SparkR计算引擎等主要部件。这里科多大数据做一个简单的介绍。

一、RDD内存数据结构

大数据分析系统一般包括数据获取、数据清洗、数据处理、数据分析、报表输出等子系统。Spark为了方便数据处理、提升性能，专门引入了RDD数据内存结构，这一点与R的机制非常类似。用户程序只需要访问RDD的结构，与存储系统的数据调度、交换都由提供者驱动去实现。RDD可以与Haoop的HBase、HDFS等交互，用作数据存储系统，当然也可以通过扩展支持很多其它的数据存储系统。

因为有了RDD，应用模型就与物理存储分离开来，而且能够更容易地处理大量数据记录遍历搜索的情况，这一点非常重要。因为hadoop的结构主要适用于顺序处理，要翻回去反复检索数据的话效率就非常低下，而且缺乏一个统一的实现框架，由算法开发者自己去想办法实现。毫无疑问，这具有相当大的难度。RDD的出现，使这一问题得到了一定程度的解决。但正因为RDD是核心部件、实现难度大，这一块的性能、容量、稳定性直接决定着其它算法的实现程度。从目前看，还是经常会出现RDD占用的内存过载出问题的情况。

二、Streaming流计算框架

流是现在推特、微博、微信、图片服务以及物联网、位置服务等等的重要数据形态，因此流计算正显得前所未有的重要。流计算框架是所有互联网服务商的核心基础架构，Amazon、Microsoft都已经推出了Event消息总线云服务平台，而facebook\twitter等更是将自己的流计算框架开源。

Spark Streaming专门设计用于处理流式数据。通过Spark Streaming，可以快速地将数据推入处理环节，犹如流水线一样进行快速的加工，并在最短的时间反馈给使用。

三、GraphX图计算与网状数据挖掘

物理网络的拓扑结构，社交网络的连接关系，传统数据库的E-R关系，都是典型的图(Graph)数据模型。Hadoop主要适用于“数据量”很大的场合，对于关系的处理几乎没有支持，Hbase也是非常弱的关系处理能力。图数据结构往往需要快速多次对数据进行扫描式遍历，RDD的引入使Spark可以更高效地处理基于图的数据结构，从而使存储和处理大规模的图网络成为可能。类似的专用于图的系统还有neo4j等。

GraphX相对于传统数据库的关系连接，可以处理更大规模、更深度的拓扑关系，可以在多个集群节点上进行运算，确实是现代数据关系研究的利器。

四、MLlib机器学习支持框架

通过把机器学习的算法移植到Spark架构上，一方面可以利用底层的大规模存储和RDD的数据快速访问能力，还可以利用图数据结构和集群计算的处理能力，使机器学习的运算可以在大规模的集群系统上展开，即大力拓展了机器学习算法的应用能力。

五、Spark SQL数据检索语言

这个跟基于Hive的实现有些类似，但是基于RDD理论上能提供更好的性能，同时能更方便处理如join和关系检索等操作。这个被设计为与用户交互的一个标准化入口。

六、Tachyon文件系统

Tachyon是一个类似于HDFS的实现，不过感觉上更加接近于使用者，而HDFS主要是面向存储块的。

七、SparkR计算引擎

将R语言的能力应用到Spark基础计算架构上，为其提供算法引擎。

最后编辑于：2017.12.08 03:22:43

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,192评论 6赞 511
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,858评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,517评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,148评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,162评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,905评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,537评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,439评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,956评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,083评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,218评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,899评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,565评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,093评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,201评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,539评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,215评论 2赞 358

Spark大数据分析框架的核心是什么？

推荐阅读更多精彩内容