GooDs: Organizing Google’s Datasets <阅读笔记> 参与了dantezhao的一个论文阅读计划 paper-notes 将阅读成果分享到博客...
withColumn / withColumnRenamed 是 spark 中常用的 API,可以用于添加新字段 / 字段重命名 / 修改字段类型,但是当列的数量增加时,...
背景 大数据平台早期是野蛮生长的,作业直接在终端提交运行,处于一种完全无管理的自由状态。在17年上线了内部的大数据平台后,用户开始逐渐在平台上进行数据管理,代码编写,作业管理...
背景 Delta Lake 进行数据删除或更新操作时实际上只是对被删除数据文件做了一个 remove 标记,在进行 vacuum 前并不会进行物理删除,因此一些例如在 web...
Delta Lake当前版本(0.5)只支持API操作的,但是实现 Insert SQL 语法也不难,可以参考 Delta Lake 平台化实践(离线篇),需要注意的是 De...
本文是cloudera公司的一篇技术博客,原文地址:Hadoop Delegation Tokens Explained 译文 Hadoop Security在2009年被设...
很久没写过部署文档了,不过 Apache Ranger KMS 的手动部署较为繁琐,网上的相关资料基本都是散装的,因此写了一篇进行总结。 背景 需要一个高可用的 KMS 服务...
Hadoop KMS(Key Management Server)是基于Hadoop的KeyProvider API的加密密钥管理服务,采用对称加密算法:AES加密算法;提供...
Delta 0.5 已于上周发布,增加了不少新特性,这篇文章主要讲解其 Presto Integration 和 Manifests 机制。该功能与我们之前平台化 Delta...
Delta Lake 是什么?简单的说就是为大数据场景添加了事务功能,并且支持了 update/delete/merge into 等功能, Delta Lake 初探。本文...
纯属放屁
对 spark 任务数据落地(HDFS) 碎片文件过多的问题的优化实践及思考。 背景 此文是关于公司在 Delta Lake 上线之前对Spark任务写入数据产生碎片文件优化...
数据接入 背景 使用界面化和 sql 的方式将数据导入到 druid,提供数据给后续告警,监控,查询等服务使用。 方案设计 数据源1:内部消息服务 dclog ,本质上是一个...
有时候会发现即使是读取少量的数据,启动延时可能也非常大,针对该现象进行分析,并提供一些解决思路。 背景 Spark 一次查询过程可以简单抽象为 planning 阶段和 ex...
Delta Lake 在说 Delta Lake 之前,要先提一下 Data Lake ,Data Lake 的主要思想是将企业中的所有数据进行统一管理。例如基于 Hadoo...