搭建日志组件链

正常来说，数据的原点是日志file ，数据的终点是HDFS，为了让数据流起来，如何跨越重重网络和机器的阻碍到达终点是很多人锁考虑的，为了离线或者实时处理数据计算，我们需要对组建日志系统有一个清晰的认识，
比如 1. kafka --->flume---->HDFS---->SPARK streaming
或者2. flume--->kafka --->Spark streaming --->HDFS
第一种可以用作实时或者离线，第二种主要用作实时处理
这中间可能还会有什么 redis 或者 MongoDB 一些Nosql 数据，我们就要看这些Nosql数据到底是想存储为主还是计算为主，存储的话就是往 Hdfs上发，计算的话就是往 Spark Streaming上发送

最后编辑于：2017.12.11 09:05:47

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
Joyyx阅读 5,478评论 0赞 26
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 ...
Spark Streaming 编程指南概述一个入门示例基础概念依赖初始化 StreamingConte...
草里有只羊阅读 4,259评论 0赞 11
Spark Streaming 编程指南（2.x）
Spark Streaming 编程指南1.概述Spark Streaming 是 Spark Core API ...
it_zzy阅读 3,928评论 0赞 16
Spark-Streaming 流式数据处理
目前为止，已经讨论了机器学习和批处理模式的数据挖掘。现在审视持续处理流数据，实时检测其中的事实和模式，好像从湖泊来...
abel_cao阅读 9,089评论 1赞 20
架构大数据应用
数据管理比以往更加复杂，到处都是大数据，包括每个人的想法以及不同的形式:广告 , 社交图谱,信息流 ,推荐 ,市场...
abel_cao阅读 919评论 0赞 7

赞1赞

赞赏

手机看全文