Spark - 文集

Spark

24篇文章 · 5964字 · 1人关注

SparkSQL统计新增用户
原始数据，放置在IDEA的data文件夹下的log1.txt 通过SparkSQL读取文件，注册成一张零食表 log1TODO 统计每日日活用户...

3994 0 0
Spark的wordcount及排序
1、读取文件 2、对数据进行压扁并以tab键分割 3、赋1操作 4、聚合相同的K 5、以单词次数降序排序第一步：首先单词与次数调换位置第二步：...

3613 0 0

Spark SQL UDF/Join/DataFrame综合使用案例
一、Scalikejdbc的配置文件及pom文件如下application.conf pom.xml 二、数据及脚本MySQL两张表信息如下ci...

3514 0 0
Spark SQL完成ETL项目
前面Hadoop MR ETL项目文章Hadoop MR ETL离线项目1基于ETL离线项目的改造2Spark core完成ETL项目一、定义...

0.1 7104 0 1
Spark core完成ETL项目
前面Hadoop MR ETL项目文章Hadoop MR ETL离线项目1基于ETL离线项目的改造2 一、 SparkCore进行ETL操作，将...

0.1 5221 0 2
Sparkstreaming数据零丢失之手动维护offset到MySQL
版本信息: Pom文件： application.conf文件 ValueUtils MySQL Offset表代码: 运行停掉程序，重新运...

5866 0 0
Spark内存管理
首先Spark内存管理分两种类别： execution 用于suffle join aggregationExecution memory r...

3359 0 0

Spark编程方式RDD转DF
官网RDD转DF有两种方式，第一种是反射的方式，但是case class有很大的限制。所以用的较多的是编程方式，反射方式大家可以参考官网编程方...

6572 0 0
Spark序列化测试
直接代码： Java MEMORY_ONLY 34.3 MB不使用序列化，将数据缓存到内存...

3089 0 0