一: 概述 Clickhouse 插入数据 Clickhouse 插入数据过程 当需要在ReplicatedMergeTree中执行INSERT以写入数据时,即会进入INSE...
一: 概述 Clickhouse 插入数据 Clickhouse 插入数据过程 当需要在ReplicatedMergeTree中执行INSERT以写入数据时,即会进入INSE...
1 Block 当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置选项进行设置。系统也提供默认大...
1: zookeeper 是什么 是一个针对大型分布式系统的可靠协调系统; 提供的功能包括:配置维护、名字服务、分布式同步、组服务等; zookeeper已经成为Hadoop...
1: yarn 资源调度的定义 2: yarn 资源调度的种类 在Yarn中有三种调度器可以选择:FIFO Scheduler,Capacity Scheduler,Fair...
FOREIGNKEYp: 外键约束,保持数据一致性,完整性。实现一对一或一对多关系。 外键约束的要求: 1,父表和子表必须使用相同的存储引擎,而且禁止使用临时表。(父表:子表...
1、OpenTSDB介绍 1.1、OpenTSDB是什么?主要用途是什么? 官方文档这样描述:OpenTSDB is a distributed, scalable Time...
赞!大牛。
【高德】推荐系统在业界及高德的应用_Part2演讲主题:物流平台的实时优化算法 主讲人:李海波 主讲人介绍: 滴滴—地图&司机语义AI负责人个人技术网站:http://www.semocean.com(不少干货,值得推荐...
演讲主题:物流平台的实时优化算法 主讲人:李海波 主讲人介绍: 滴滴—地图&司机语义AI负责人个人技术网站:http://www.semocean.com(不少干货,值得推荐...
数据治理的定义 数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流...
简介 Apache Cassandra 是一个大规模可扩展的分布式开源NoSQL数据库,完美适用于跨数据中心/云端的结构化数据、半结构化数据和非结构化数据,同时,Cassan...
概述 最近公司对老版本的kafka做升级,我们的集群很小,就三台机器。主要用来爬取数据实时任务传输用的。老版本用的0.8版本的,这个版本zookeeper的依赖还是比较大,每...
部署方案 spark官网下载基于hdp的Hadoop版本的pre-built的spark安装包 在机器上解压,并在spark-env中配置HADOOP_CONF_DIR,SP...
1: alluxio是什么 Alluxio : 开源分布式内存文件系统, 简而言之就是,你不用每次都从原始文件去读,如果你的文件在alluxio内存中,可以直接从内存去读。 ...
本篇主要介绍一下Spark Streaming在消费Kafka过程中,当出现程序挂掉重启后,找到上次消费过的最后一次数据,确保kafka数据精确消费一次(exactly-on...
1: zabbix介绍 Zabbix 是由 Alexei Vladishev 开发的一种网络监视、管理系统,基于 Server-Client 架构。可用于监视各种网络服务、服...