数据已成为很多公司的核心资产,而在数据开发的过程中会引入各种质量、效率、安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确、...
数据已成为很多公司的核心资产,而在数据开发的过程中会引入各种质量、效率、安全等方面的问题,而数据治理就是要不断消除引入的这些问题,保障数据准确、...
标签数据开发是用户画像体系中最重要的一环,主要包括离线标签开发、实时标签开发、用户特征库开发、人群计算、打通数据服务层等开发内容。 一、统计类标...
1、HiveSource-xxxx.xxxx's parallelism (200) is higher than the max parall...
火山日常啰嗦学习了一些大数据的相关框架后,发现应用层的东西确实不难,真正难的都是底层原理,所以我查看了很多资料,借鉴了前人的方法再加上自己的理解...
Checkpointing 是 Flink 故障恢复的内部机制。一个 checkpoint 就是 Flink应用程序产生的状态的一个副本。如果 ...
转自千峰王溯老师 1、用户画像项目简介 1.1 什么是用户画像 所谓的用户画像就是给用户贴一些标签,通过标签说明用户是一个什么样的人。 具体来说...
基本概念 数据(Data) 数据是我们通过观察、实验或计算得出的结果。数据有很多钟,最简单的是数字,数据也可以是文字、图像、声音等。 企业内各类...
实时数仓主要是为了解决传统数仓数据时效性低的问题,实时数仓通常会用在实时的OLAP分析、实时的数据看板、业务指标实时监控等场景。虽然关于实时数仓...
Pandas官方文档 缩写和包导入 在这个速查手册中,我们使用如下缩写: df:任意的Pandas DataFrame对象s:任意的Pandas...
Spark SQL, DataFrames and Datasets Guide Overview SQL Datasets and DataF...