240 投稿
收录了22篇文章 · 2人关注
  • Resize,w 360,h 240
    3.什么是倒排索引/词频/位置

    1.正排索引 2.倒排索引 通过内容搜索出id 2.词频/位置

  • Resize,w 360,h 240
    ETL入门系列 之 ETL是什么

    ETL定义 字面含义:ETL是抽取、转换、加载的缩写。 简单定义:将数据从OLTP系统中转移到数据仓库中的一系列操作的集合。 ETL应用范围 抽...

  • Resize,w 360,h 240
    数据指标体系建设

    一、数据 数据是指未經過處理的原始記錄。 数据的本质是利用数学观察、记录、理解世界;数据分析的过程就是人类从定性到定量、模糊到精准过程; 大家都...

  • Resize,w 360,h 240
    数据脱敏的处理方法及查询

    【摘要】 关键词:集算器、SPL、数据脱敏、报表 1)、数据脱敏是“指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉...

  • Resize,w 360,h 240
    谈谈数据脱敏

    大数据平台通过将所有数据整合起来,充分分析与挖掘数据的内在价值,为业务部门提供数据平台,数据产品与数据服务。大数据平台接入的数据中可能包括很多用...

  • Resize,w 360,h 240
    Kafka 学习笔记

    一、Kafka简介 Kafka (科技术语)。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 ...

  • Resize,w 360,h 240
    Kafka的初步认识

    什么是消息系统? 早期两个应用程序间进行消息传递需要保证两个应用程序同时在线,并且耦合度很高。为了解决应用程序不在线的情况下业务正常运转,就产生...

  • Resize,w 360,h 240
    Hadoop概论浅学

    Hadoop生态圈 可以把hadoop想象成一个很大的生态圈(本来就是),或者说想象成一个动物园吧,之后的东西就比较好理解了。(我也不知道为啥p...

  • 笔记:新手的Hive指南

    前言 算是对在滴滴实习的这段时间Hive的笔记吧,回学校也有段时间了,应该整理整理了,肯定不会巨细无遗,作为一种学习记录或者入门指南吧 基础 S...

    0.5 mrlevo520 0 25
  • Resize,w 360,h 240
    总结:Hive,Hive on Spark和SparkSQL区别

    Hive on Mapreduce Hive的原理大家可以参考这篇大数据时代的技术hive:hive介绍,实际的一些操作可以看这篇笔记:新手的H...

    2.5 mrlevo520 6 61