[SQL]SparkS/Hive/HBase整合


Hive使用Spark on Yarn作为执行引擎 – lxw的大数据田地
http://lxw1234.com/archives/2016/05/673.htm
Hive从1.1之后,支持使用Spark作为执行引擎,配置使用Spark On Yarn作为Hive的执行引擎,首先需要注意以下两个问题:

Hive的版本和Spark的版本要匹配;


SparkSQL读取HBase数据 – lxw的大数据田地
http://lxw1234.com/archives/2015/07/330.htm
通过Hive和spark-sql去访问HBase表,只是为统计分析提供了一定的便捷性,个人觉得性能上的优势并不明显。
可能Spark通过API去读取HBase数据,性能更好些吧,以后再试。
另外,spark-sql有一点好处,就是可以先把HBase中的数据cache到一张内存表中,然后在这张内存表中,
通过SQL去统计分析,那就爽多了。


Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数 – lxw的大数据田地
http://lxw1234.com/archives/2015/06/294.htm
Spark1.4发布,除了重量级的SparkR,其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列 文章。
在我们的数据平台中,90%以上的离线分析任务都是使用Hive实现,其中必然会使用很多窗口分析函数,如果SparkSQL支持窗口分析函数,
那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低,因此迫不及待将Spark1.4下载试用一下。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容