GooDs: Organizing Google’s Datasets <阅读笔记> 参与了dantezhao的一个论文阅读计划 paper-notes 将阅读成果分享到博客...
IP属地:内蒙古
GooDs: Organizing Google’s Datasets <阅读笔记> 参与了dantezhao的一个论文阅读计划 paper-notes 将阅读成果分享到博客...
本文是cloudera公司的一篇技术博客,原文地址:Hadoop Delegation Tokens Explained 译文 Hadoop Security在2009年被设...
Hadoop KMS(Key Management Server)是基于Hadoop的KeyProvider API的加密密钥管理服务,采用对称加密算法:AES加密算法;提供...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。本文...
对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。 背景 此文是关于公司在 Delta Lake 上线之前对Spark任务写入数据产生碎片文件优化...
数据接入 背景 使用界面化和 sql 的方式将数据导入到 druid,提供数据给后续告警,监控,查询等服务使用。 方案设计 数据源1:内部消息服务 dclog ,本质上是一个...
本文基于 Spark 2.1 进行解析 前言 从 Spark 2.0 开始移除了Hash Based Shuffle,想要了解可参考Shuffle 过程,本文将讲解 Sort...