240 发简信
IP属地:北京
  • Resize,w 360,h 240
    Structured Streaming 介绍(一)

    最近看了下structured streaming 的基本用法,大部分虽然是翻译官方文档,但是从翻译中也可以加深理解。 基本介绍和编程模型 Sp...

  • spark 2.0 新特性

    Spark Core & SparkSQL dataframe与dataset统一,dataframe只是dataset[Row]的类型别名,移...

  • spark BlockManager

    我们从这个入口开始分析,task对rdd开始处理。 SparkEnv.get.cacheManager.getOrCompute 方法追踪 Bl...

  • Spark1.6.3 Stage划分算法

    在分析Stage划分算法之前,需要知道RDD的宽依赖和窄依赖的概念。窄依赖:Narrow Dependency,即每个RDD的partition...

  • Spark1.6.3 cache()和persist()

    RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后,,然后再针对该RDD进行action操作(这里我...

  • Resize,w 360,h 240
    mac上提交job遇到的问题(Hadoop)

    最近想看下hadoop job提交的源码,结果在mac使用伪分模式提交job时,导致job提交失败。主要遇到的问题有两个: 1、通过访问jo...

  • Resize,w 360,h 240
    Mac mysql 安装

    1.首先在MySQL 官方网站下载http://dev.mysql.com/downloads/file/?id=466265 按照步骤直接安装...

  • Resize,w 360,h 240
    IntelliJ Idea 搭建spark 开发环境

    笔者介绍的是在MAC环境下使用Idea搭建spark环境。 环境: spark 2.0.0 scala 2.11.8 maven 3.9.9 i...

个人介绍
数据开发,喜欢数学,热爱生活。