1.正排索引 2.倒排索引 通过内容搜索出id 2.词频/位置
1.正排索引 2.倒排索引 通过内容搜索出id 2.词频/位置
ETL定义 字面含义:ETL是抽取、转换、加载的缩写。 简单定义:将数据从OLTP系统中转移到数据仓库中的一系列操作的集合。 ETL应用范围 抽...
一、数据 数据是指未經過處理的原始記錄。 数据的本质是利用数学观察、记录、理解世界;数据分析的过程就是人类从定性到定量、模糊到精准过程; 大家都...
【摘要】 关键词:集算器、SPL、数据脱敏、报表 1)、数据脱敏是“指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉...
大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用...
一、Kafka简介 Kafka (科技术语)。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 ...
什么是消息系统? 早期两个应用程序间进行消息传递需要保证两个应用程序同时在线,并且耦合度很高。为了解决应用程序不在线的情况下业务正常运转,就产生...
Hadoop生态圈 可以把hadoop想象成一个很大的生态圈(本来就是),或者说想象成一个动物园吧,之后的东西就比较好理解了。(我也不知道为啥p...
前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧 基础 S...
Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的H...