大数据小同学 - 简书

发简信

大数据小同学

0
关注
10
粉丝
61
文章
43598

字数
2

收获喜欢
1

总资产

IP属地：重庆

大数据小同学

Spark 内核概述
Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spar...

452 0 0
大数据小同学

SparkStreaming之DStream转换
DStream上的原语与RDD的类似，分为Transformations（转换）和Output Operations（输出）两种，此外转换操作中还有一些比较特殊的原语，如：u...

730 0 0

大数据小同学

SparkStreaming之Dstream创建
Spark Streaming原生支持一些不同的数据源。一些“核心”数据源已经被打包到Spark Streaming 的 Maven 工件中，而其他的一些则可以通过 spar...

652 0 0
大数据小同学

SparkStreaming之Dstream入门
WordCount案例实操需求：使用netcat工具向9999端口不断的发送数据，通过SparkStreaming读取端口数据并统计不同单词出现的次数添加依赖编写代码 ...

457 0 0
大数据小同学

Spark Streaming概述
Spark Streaming是什么 Spark Streaming用于流式数据的处理。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Tw...

553 0 0
大数据小同学

SparkSQL实战
数据说明数据集是货品交易数据集每个订单可能包含多个货品，每个订单可以产生多次交易，不同的货品有不同的单价加载数据 tbStock： tbStockDetail: tbD...

539 0 0
大数据小同学

SparkSQL数据源之Hive数据库
Apache Hive是Hadoop上的SQL引擎，Spark SQL编译时可以包含Hive支持，也可以不包含。包含Hive支持的Spark SQL可以支持Hive表访问、U...

1123 0 0

大数据小同学

SparkSQL数据源之通用加载/保存方法/JSON文件/Parquet文件/JDBC
手动指定选项 Spark SQL的DataFrame接口支持多种数据源的操作。一个DataFrame可以进行RDDs方式的操作，也可以被注册为临时表。把DataFrame注册...

1150 0 0
大数据小同学

SparkSQL编程之用户自定义函数
IDEA创建SparkSQL程序 IDEA中程序的打包和运行方式都和SparkCore类似，Maven依赖中需要添加新的依赖项程序如下：用户自定义UDF函数在Shell...

416 0 0
大数据小同学

SparkSQL编程之DataSet以及DataFrame与DataSet的互操作
DataSet Dataset是具有强类型的数据集合，需要提供对应的类型信息。 DataSet创建创建一个样例类创建DataSet RDD转换为DataSet Spark...

542 0 0
大数据小同学

SparkSQL编程之DataFrame
SparkSession新的起始点在老的版本中，SparkSQL提供两种SQL查询起始点：一个叫SQLContext，用于Spark自己提供的SQL查询；一个叫HiveCo...

384 0 0
大数据小同学

SparkSql概述
什么是Spark SQL Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的...

478 0 0

大数据小同学

SparkCore之RDD编程进阶
累加器累加器用来对信息进行聚合，通常在向 Spark传递函数时，比如使用 map() 函数或者用 filter() 传条件时，可以使用驱动器程序中定义的变量，但是集群中运行...

278 0 0
大数据小同学

SparkCore之文件系统类数据读取与保存
HDFS Spark的整个生态系统与Hadoop是完全兼容的,所以对于Hadoop所支持的文件类型或者数据库类型,Spark也同样支持.另外,由于Hadoop的API有新旧两...

427 0 0
大数据小同学

SparkCore之文件类数据读取与保存
Spark的数据读取及数据保存可以从两个维度来作区分：文件格式以及文件系统。文件格式分为：Text文件、Json文件、Csv文件、Sequence文件以及Object文件；文...

619 0 0
大数据小同学

SparkCore之键值对RDD数据分区器
Spark目前支持Hash分区和Range分区，用户也可以自定义分区，Hash分区为当前的默认分区，Spark中分区器直接决定了RDD中分区的个数、RDD中每条数据经过Shu...

1171 0 0
大数据小同学

SparkCore之RDD缓存与RDD CheckPoint
RDD缓存 RDD通过persist方法或cache方法可以将前面的计算结果缓存，默认情况下 persist() 会把数据以序列化的形式缓存在 JVM 的堆空间中。但是并不是...

579 0 0

大数据小同学

SparkCore之RDD依赖关系
Lineage RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RD...

315 0 0

暂无个人介绍