1、文档编写目的 目前各个企业都在利用Hadoop大数据平台,每天都会通过ETL产生大量的文件到hdfs上,如何有效的去监测数据的有效性,防止数据的无限增长导致物理资源跟不上...
1. 概述 Kakfa起初是由LinkedIn公司开发的一个分布式的消息系统,后成为Apache的一部分,它使用Scala编写,以可水平扩展和高吞吐率而被广泛使用。目前越来越...
刚工作,月薪20k
原来我的月薪并不差。身为90后,身为一个IT软件专业班,我一直以为我是垫底的。我没有在毕业的最后半年出去实习。选择规规矩矩的上课拿到毕业证。而那个半年我我选择了学习日语。 毕业后,我在日语群里看...
博客原文 翻译作品,水平有限,如有错误,烦请留言指正。原文请见 官网英文文档 引言 概述 Apache Flume是一个分布式的、可靠的、易用的系统,可以有效地将来自很多不同...
一、Kylin简介 Apache Kylin™是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由...
介绍 sorted set 是有序集合,它在 set 的基础上增加了一个顺序属性,这一属性在添加修改元素的时候可以指定,每次指定后,会自动重新按新的值调整顺序。可以理解了有两...
上篇我们讲了BitMap是如何对数据进行存储的,没看过的可以看一下【算法与数据结构专场】BitMap算法介绍 这篇我们来讲一下BitMap这个数据结构的代码实现。 回顾下数据...
最近在业务中需要使用ES来进行数据查询,在某些场景下需要对数据进行去重,以及去重后的统计。为了方便大家理解,特意从SQL角度,方便大家能够理解ES查询语句。 1 - dist...
Superset简介 Superset是Airbnb开源的一个数据可视化工具, 可以接入Druid, Presto, Kylin等数据库或查询引擎. 提供丰富的可视化效果, ...
Git使用教程 idea、webstorm、phpstorm、androidstudio中git使用教程 首先你的安装git,windows版点击下载,linux用apt或者...