[flow]Flume+SparkStreaming+Kafka已经发展为一个比较成熟的实时日志收集与计算架构

SparkSQL结合SparkStreaming，使用SQL完成实时计算中的数据统计 – lxw的大数据田地
http://lxw1234.com/archives/2015/11/552.htm
关键字：SparkSQL、Spark Streaming、SQL、实时计算

Flume+Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming。然而，在SparkStreaming程序中如果有复杂业务逻辑的统计，使用scala代码实现起来比较困难，也不易于别人理解。但如果在SparkSteaming中也使用SQL来做统计分析，是不是就简单的多呢？

本文介绍将SparkSQL与SparkStreaming结合起来，使用SQL完成实时的日志数据统计。
SparkStreaming程序以yarn-cluster模式运行在YARN上，不单独部署Spark集群。

//实时统计需求
以60秒为间隔，统计60秒内的pv,ip数,uv
最终结果包括：
时间点：pv：ips：uv

原始日志格式

Paste_Image.png

每条日志包含7个字段，分隔符为|~|，其中，第3列为ip，第7列为cookieid。假设原始日志已经由Flume流到Kafka中。

Spark Streaming+Flume对接实验 – lxw的大数据田地
http://lxw1234.com/archives/2015/05/217.htm

最后编辑于：2017.12.04 06:06:08

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

[flow]Flume+SparkStreaming+Kafka已经发展为一个比较成熟的实时日志收集与计算架构

[flow]Flume+SparkStreaming+Kafka已经发展为一个比较成熟的实时日志收集与计算架构

相关阅读更多精彩内容

友情链接更多精彩内容