240 发简信
IP属地:重庆
  • 120
    Spark SQL

    简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame(底层也是RDD)并且作为分布式SQL查询引擎的作用。 引入 Hi...

  • 120
    spark-Core

    RDD解决的问题:1.中间结果保存在内存中,并且重用2.提供了通用的抽象的分布式的数据模型3.提供了多种数据操作模式(支持函数式编程):如map,ruduce,foreach...

  • 120
    Spark_简单介绍

    介绍:Spark是用于大规模数据处理的统一分析引擎 spark的引入:虽然MapReduce提供了对数据访问和计算的抽象,但是对于数据的复用就是简单的将中间数据写到一个稳定的...

  • Hive的基本的概述即使用参考

    1.Hive的概述 √ 意义:在于大幅度降低工程师学习MapReduce的学习成本,让好用(计算速度快)的MapReduce更方便的使用(使用简单) √ 基本概念:Hive是...

  • SparkStreaming接收Kafka中数据的两种方式

    kafka版本说明 0.8版本有Receiver和Direct模式 0.10以后只保留了direct模式 receiver接收方式 Receiver是使用Kafka的高层次C...

  • YARN的运行流程简要步骤

    1.client 向 ResourceManager提交应用程序,其中包括启动该应用的 ApplicationMaster 的必须信息,例如 ApplicationMaste...

  • MapReduce的shuffle阶段

    map端的shuffle: 每个maptask的数据会进入环形缓冲区中,(默认100M,溢出比是80%),数据在写入时,会进行分区,往数据中添加一个分区属性,当数据写入到80...

  • 初识MapReduce的八个步骤

    Map阶段2个步骤 第一步:设置inputFormat类,将我们的数据切分成key,value对,输入到第二步 第二步:自定义map逻辑,处理我们第一步的输入数据,然后转换成...

  • HDFS文件写入的简要步骤

    1、client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传; 2、client请求第一个...

  • Kafka(分布式消息队列)的基本认识

    作用(用于消息中间件) 1.可以作为缓冲(流量消减)--防止高并发 2.分布式 3.解耦合 分片机制 简要介绍: 1.Kafka可以将主题划分为多个分区(Partition)...

  • Redis(内存数据库)的两种持久化机制认识

    RDB: 介绍: 一种基于快照机制实现的持久化方案, 会将一个服务器某个时刻的一个状态整体保存下来.快照文件非常小,一般只有几kb左右. 优点: 持久化的文件非常小,适合于做...

  • Dubbo的简要执行流程

    1. 服务器启动,运行服务提供者。 2. 服务提供者在启动时,向注册中心(zookeeper)注册自己提供的服务。 3. 服务消费者在启动时,向注册中心订阅自己所需的服务。 ...