[list]数据摄取--史上最全的“大数据”学习资源

史上最全的“大数据”学习资源（上）-博客-云栖社区-阿里云
https://yq.aliyun.com/articles/37308

数据摄取

Amazon Kinesis：大规模数据流的实时处理；
Apache Chukwa：数据采集系统；
Apache Flume：管理大量日志数据的服务；
Apache Kafka：分布式发布-
订阅消息系统；

Apache Sqoop：在Hadoop和结构化的数据存储区之间传送数据的工具；
Cloudera Morphlines：帮助 Solr
、
HBase
和
HDFS
完成
ETL
的框架；

Facebook Scribe：流日志数据聚合器；
Fluentd：采集事件和日志的工具；
Google Photon：实时连接多个数据流的分布式计算机系统，具有高可扩展性和低延迟性；
Heka：开源流处理软件系统；
HIHO：用Hadoop
连接不同数据源的框架；

Kestrel：分布式消息队列系统；
LinkedIn Databus：对数据库更改捕获的事件流；
LinkedIn Kamikaze：压缩已分类整型数组的程序包；
LinkedIn White Elephant：日志聚合器和仪表板；
Logstash：用于管理事件和日志的工具；
Netflix Suro：像基于Chukwa 的Storm和Samza一样的日志聚合器；
Pinterest Secor：是实现Kafka日志持久性的服务；
Linkedin Gobblin：LinkedIn
的通用数据摄取框架；

Skizze：是一种数据存储略图，使用概率性数据结构来处理计数、略图等相关的问题；
StreamSets Data Collector：连续大数据采集的基础设施，可简单地使用IDE
。

最后编辑于：2017.12.04 20:10:15

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

[list]数据摄取--史上最全的“大数据”学习资源

[list]数据摄取--史上最全的“大数据”学习资源

相关阅读更多精彩内容

友情链接更多精彩内容