1. 背景 随着公司业务的高速发展,业务数据的生产速度变得越来越快,离线集群规模快速膨胀,既有机房内的机位急剧消耗,在可预见的不久的将来会达到机...
概述:为解决临时数据导致的集群资源争用问题,我们采用了container日志分离方案,但在Hadoop Security机制下,该方案存在跨集群...
动机 昨天又收到有同学因数据(代码)问题被rccd的邮件,领导也一再提醒数据的安全问题。于是审视了一下硬盘文件,以免存在无心之过… 审视过程中发...
今天有朋友问之前NodeManager被Shuffle拉挂的问题,借此机会将之前分析的另一文档整理一下分享出来。 现象描述及分析 9月27日10...
刚完成SparkR的支持,顺手记录下流程… 1 编译SparkR 1.1 生成SparkR的lib包 1.2 编译Spark 1.3 local...
1 问题描述 当使用Spark-sql执行 Hive UDF时会发生NullPointerException(NPE),从而导致作业异常终止。...
1 现象描述及初步分析 近期公司yarn集群中存在NodeManager因OOM 而挂掉的情况, 且发生OOM前存在大量的Spark Shuf...
1 动机 不同用户的应用程序使用的python版本及需要的python依赖可能存在不同,若每次缺少依赖都请op去update所有节点,对于大集群...
本文1、2、3节介绍了Spark 内存相关之识,第4节描述了常见错误类型及产生原因并给出了解决方案。 1 堆内和堆外内存规划 Executor ...