见丰 - 简书

见丰

IP属地：上海

一个Spark DataFrame操作的例子
1 定义数据库连接 2 读取两个表 3 连接使用join，默认是left out join。条件判断是相等。然后删除掉一个重复的列card_i...

1010 0 1
使用bind架设内网dns
在之前的spark on yarn集群配置中，感觉最麻烦的就是各个机器之间的网络配置了，一直想简化这部分的工作。一开始的办法是一台机器一台机器的...

2536 0 2

Spark On Yarn部署
本文使用的软件环境同第一篇，另增加了hadoop的环境： Linux 4.4.0-62-generic #83-Ubuntu x86_64 GN...

3550 0 2
使用Spark KMeans对地点发生重量进行聚类
聚类 Spark的机器学习库分成两类，一类是针对RDD的，在org.apache.spark.mllib包下，另一类则是针对DataFrame的...

1633 0 2
使用Zeppelin代替spark-shell
部署把下载的bin-all.tgz上传到服务器，解压放到自己常用的目录下。为了使用spark.read.jdbc功能，需要上传一份mysql ...

0.1 2881 0 10
Spark性能调优
尽可能的过滤原始数据在上次实践中，我们使用过滤并读取了数据库。如果我们要多加几个过滤条件，要小心一个陷阱，Array[String]参数并不是...

237 0 1
Spark连接JDBC数据源
在实际的项目环境中，成熟的技术体系对关系型数据库的依赖远远超过hdfs，而且对大数据运算的结果，实践中也倾向于保存到数据库中，以便进行多种方式的...

2854 0 2

Spark RDD与本地容器交互
今天要从之前的数据中找出每个地点的一段时间内的产品发生率，即某地点有产量的天数/总天数。在此之前，为了输出的可读性，我们需要用地点别名代替地点...

764 0 2
使用Docker建立Mysql集群
软件环境介绍操作系统：Ubuntu server 64bit 14.04.1Docker版本1.6.2数据库：Mariadb 10.10（Ma...

1703 0 3