Avatar notebook default
24篇文章 · 5964字 · 1人关注
  • SparkSQL统计新增用户

    原始数据,放置在IDEA的data文件夹下的log1.txt 通过SparkSQL读取文件,注册成一张零食表 log1TODO 统计每日日活用户...

  • Spark的wordcount及排序

    1、读取文件 2、对数据进行压扁并以tab键分割 3、赋1操作 4、聚合相同的K 5、以单词次数降序排序第一步:首先单词与次数调换位置 第二步:...

  • Spark SQL UDF/Join/DataFrame综合使用案例

    一、Scalikejdbc的配置文件及pom文件如下application.conf pom.xml 二、数据及脚本MySQL两张表信息如下ci...

  • Spark SQL完成ETL项目

    前面Hadoop MR ETL项目文章Hadoop MR ETL离线项目1基于ETL离线项目的改造2Spark core完成ETL项目 一、定义...

  • Spark core完成ETL项目

    前面Hadoop MR ETL项目文章Hadoop MR ETL离线项目1基于ETL离线项目的改造2 一、 SparkCore进行ETL操作,将...

  • Sparkstreaming数据零丢失之手动维护offset到MySQL

    版本信息: Pom文件: application.conf文件 ValueUtils MySQL Offset表 代码: 运行 停掉程序,重新运...

  • Resize,w 360,h 240
    Spark内存管理

    首先Spark内存管理分两种类别: execution 用于suffle join aggregationExecution memory r...

  • Spark编程方式RDD转DF

    官网RDD转DF有两种方式,第一种是反射的方式,但是case class有很大的限制。所以用的较多的是编程方式,反射方式大家可以参考官网 编程方...

  • Spark序列化测试

    直接代码: Java MEMORY_ONLY 34.3 MB不使用序列化,将数据缓存到内存...

文集作者