[SQL]SparkS/Hive/HBase整合

Hive使用Spark on Yarn作为执行引擎 – lxw的大数据田地
http://lxw1234.com/archives/2016/05/673.htm
Hive从1.1之后，支持使用Spark作为执行引擎，配置使用Spark On Yarn作为Hive的执行引擎，首先需要注意以下两个问题：

Hive的版本和Spark的版本要匹配；

SparkSQL读取HBase数据 – lxw的大数据田地
http://lxw1234.com/archives/2015/07/330.htm
通过Hive和spark-sql去访问HBase表，只是为统计分析提供了一定的便捷性，个人觉得性能上的优势并不明显。
可能Spark通过API去读取HBase数据，性能更好些吧，以后再试。
另外，spark-sql有一点好处，就是可以先把HBase中的数据cache到一张内存表中，然后在这张内存表中，
通过SQL去统计分析，那就爽多了。

Spark1.4.0-SparkSQL与Hive整合-支持窗口分析函数 – lxw的大数据田地
http://lxw1234.com/archives/2015/06/294.htm
Spark1.4发布，除了重量级的SparkR，其中的SparkSQL支持了我期待已久的窗口分析函数(window functions),关于Hive中窗口分析函数的用法可参考 Hive分析函数系列文章。
在我们的数据平台中，90%以上的离线分析任务都是使用Hive实现，其中必然会使用很多窗口分析函数，如果SparkSQL支持窗口分析函数，
那么对于后面Hive向SparkSQL中的迁移的工作量会大大降低，因此迫不及待将Spark1.4下载试用一下。

最后编辑于：2017.12.04 06:06:01

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

[SQL]SparkS/Hive/HBase整合

[SQL]SparkS/Hive/HBase整合

相关阅读更多精彩内容

友情链接更多精彩内容