240 发简信
IP属地:河南
  • java同步块

    Java同步关键字(synchronized) Java中的同步块用synchronized标记。同步块在Java中是同步在某个对象上。所有同步在一个对象上的同步块在同时只能...

  • 120
    BitMap&布隆过滤器

    一.BitMap BitMap算法流程 假设需要排序或者查找的最大数MAX=10000000(lz:这里MAX应该是最大的数而不是int数据的总数!),那么我们需要申请内存空...

  • 前台系统本地缓存和分布式缓存实现方案

    根据缓存是否与应用进程属于同一进程,可以将内存分为本地缓存和分布式缓存。本地缓存是在同一个进程内的内存空间中缓存数据,数据读写都是在同一个进程内完成;而分布式缓存是一个...

  • 网站点击流量数据分析案例

    1.通过flume,实时收集服务器上的日志信息,sink到hdfs 2.使用mapreduce对数据进行清洗和校验,规整出可建表的数据,进而创建贴源表 3.由hive创建贴源...

  • 120
    Azkaban&Sqoop

    Azkaban 1.为什么需要工作流调度系统 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各...

  • 120
    Flume

    日志采集框架Flume 1 Flume介绍 1.概述 Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。 有问题:并未实现高可用,老版本的flumeOG...

  • 120
    HA机制

    一. 概念 所谓HA,即高可用(7*24小时不中断服务) 实现高可用最关键的是消除单点故障 hadoop-ha严格来说应该分成各个组件的HA机制——HDFS的HA、YARN的...

  • 120
    Coding

    1.基础:wordCount 2.三个重要自定义接口:partitioner、combiner、自定义排序(WritableComparator) partitioner用于...