缘起 最近为了排查线上系统问题,让运维小哥导一份线上系统日志,运维小哥觉得线上导线下觉得十分麻烦,而我只需要在线上开发机可看就可以了,这个就把运维小哥难住了:他觉得每次都需要...
摘要 MLSQL依赖于Spark,而且算法模块依赖于conda来管理python包。本文将介绍如何用docker快速搭建mlsql的运行环境。 快速启动 运行docker命令...
spark sql 调试技巧--内置udf查看 Spark SQL内置了许多常用的udf,我们该如何拿到用户的udf和内置的udf呢? DataFrame级别 对于DataF...
log4j2利用SocketAppender将日志写入rsyslog 摘要:利用elk(elasticsearch/logstash/kibana)做些简单的分布式日志查看还...
推荐系统是今年的主要工作之一 整体架构 推荐系统可以说是一个闭环的生态系统了。从整体架构图中,我们就可以看出来,推荐列表从RankServer产生,用户点击推荐列表产生的日志...
摘要:Shuffle是MapReduce编程模型中最耗时的一个步骤,而Spark将Shuffle过程分解成了Shuffle Write和Shuffle Read两个过程,本文...
title: Java命令行使用 本文我们将对java内置命令行使用分析,这些命令行在java程序优化中扮演着重要的角色。 Jps 功能 jps(Java Virtual M...
Spark Streaming在状态管理时应用了一些高效的数据结构,本文我们就来看下这些数据结构的实现。 BitSet OpenHashSet OpenHashMap Bit...
Spark Streaming实时长时服务与MapRedue、Spark、Hive等批处理应用共享YARN集群资源。在共享环境中,经常因一个批处理应用占用大量网络资源或者CP...
由于特殊需求,需要在一次Spark任务中切换HDFS集群。 本文我将介绍如何在一次的spark任务中操作不同的HDFS集群 我们以wordcount为例,分析如何配置。我们的...