背景 在上一期介绍了 Gravitino 的概念以及解决了什么问题,现在介绍下 Gravitino 如何与 Spark 集成,毕竟 Spark 的市占率是非常巨大的。 Spa...

背景 在上一期介绍了 Gravitino 的概念以及解决了什么问题,现在介绍下 Gravitino 如何与 Spark 集成,毕竟 Spark 的市占率是非常巨大的。 Spa...
引言 我所经历的大部分是 Java 应用, Java 语言的一个特性就是不需要使用者管理内存,Java 语言提供了管理内存的利器=》垃圾回收器。垃圾收集器虽然解决了使用者避免...
一、背景介绍 某Java应用,堆内存5.6GB,GC停顿时间过长,年轻代GC也经常超过1秒,影响响应和系统稳定性。初始GC参数: 堆中年轻代占比较大,内存占用高,GC频繁且停...
什么是 Gravitino 引用官方文档 Apache Gravitino 是一个高性能、地理分布式、联邦式元数据湖。它能够直接管理不同数据源、类型及区域的元数据,同时为用户...
前置知识: RDD 与算子: RDD(类似 Stream) RDD(弹性分布式数据集)是 Spark 的核心抽象,代表一个分布式的、不可变的数据集合。它允许开发人员以容错的方...
概要 MapReduce 是一个处理和生成大数据集的程序模型和相关实现。用户定义一个 map 函数:处理一个 key/value 对生成一组中间键值对,和一个Reduce 函...
前言 贪心是人类自带的能力,贪心算法是在贪心决策上进行统筹规划的统称。 比如一道常见的算法笔试题----跳一跳: 有n个盒子排成一行,每个盒子上面有一个数字a[i],表示最多...
参考文献:https://mp.weixin.qq.com/s/7Rq0LFhIs8oJoDRmNqrKqw 日志最主要的采集工具是 Agent,在 Kubernetes 场...
写一下个人spark实现的es completion suggester,目录如下, Overview 检索建议suggestion(补全completion和纠正corre...