240 发简信
IP属地:河北
  • clickhouse写入和副本同步过程

    一: 概述 Clickhouse 插入数据 Clickhouse 插入数据过程 当需要在ReplicatedMergeTree中执行INSERT...

  • Hadoop中Block和Split的区别

    1 Block 当我们把文件上传到HDFS时,文件会被分块,这个是真实物理上的划分。每块的大小可以通过hadoop-default.xml里配置...

  • 大数据之zookeeper

    1: zookeeper 是什么 是一个针对大型分布式系统的可靠协调系统; 提供的功能包括:配置维护、名字服务、分布式同步、组服务等; zook...

  • Resize,w 360,h 240
    yarn之资源调度器

    1: yarn 资源调度的定义 2: yarn 资源调度的种类 在Yarn中有三种调度器可以选择:FIFO Scheduler,Capacity...

  • mysql 外键那些事

    FOREIGNKEYp: 外键约束,保持数据一致性,完整性。实现一对一或一对多关系。 外键约束的要求: 1,父表和子表必须使用相同的存储引擎,而...

  • Resize,w 360,h 240
    数据治理的定义和架构

    数据治理的定义 数据治理(DataGovernance),是企业数据治理部门发起并推行的,关于如何制定和实施针对整个企业内部数据的商业...

  • Cassandra

    简介 Apache Cassandra 是一个大规模可扩展的分布式开源NoSQL数据库,完美适用于跨数据中心/云端的结构化数据、半结构化数据和非...

  • Resize,w 360,h 240
    聊一聊所谓的alluxio

    1: alluxio是什么 Alluxio : 开源分布式内存文件系统, 简而言之就是,你不用每次都从原始文件去读,如果你的文件在alluxio...

  • Resize,w 360,h 240
    Spark Streaming+Kafka的offset管理方法

    本篇主要介绍一下Spark Streaming在消费Kafka过程中,当出现程序挂掉重启后,找到上次消费过的最后一次数据,确保kafka数据精确...

个人介绍
作者长期从事大数据工作,喜欢或者对大数据收集、处理、分析、olap、BI等感兴趣的同学可以收藏作者,后续会有相关文章分享给大家。