240 投稿
收录了8篇文章 · 1人关注
  • 即将开始...

    Hadoop如何实现分布式 Hadoop怎样在运行 7、Hadoop核心MapReduce例子说明 二、分布式文件系统HDFS,是数据库管理员的...

  • Resize,w 360,h 240
    单词统计

    有一个文本文件,被分成了4份,分别放到了4台服务器中存储 Text1:the weather is goodText2:today is goo...

  • Resize,w 360,h 240
    前言

    一、前言 大数据是个笼统又大的方向,在这个大方向上找到自己的兴趣点去钻研和学习是关键。 企业级的大数据,因为其海量数据,及大量请求、计算的特点,...

  • Resize,w 360,h 240
    spark基础入门

    定义 Spark是一个高效,通用的大数据处理引擎。 背景 2009年,Spark诞生于伯克利大学AMPLab,最初属于伯克利大学的研究性项目。 ...

  • Resize,w 360,h 240
    spark—RDD

    1.什么是RDDRDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表...

  • Resize,w 360,h 240
    大数据治理平台——维度管理

    背景 苏宁八大产业,每个产业有自己的数据集市,每个数据集市有自己的维度表,没有统一的维度管理(包括管理规范和系统支撑)。业务痛点包含以下几个方面...

  • 大数据理论体系总结--数据仓库管理与全链路数据体系

    前言 就这样,大数据领域蓬勃发展了好几年,有很多伙伴执迷于技术,成为了分布式计算与存储的领域专家。也有很多伙伴执迷于数据,成为了行业的数据研发专...

  • Resize,w 360,h 240
    Apache Druid

    介绍 Druid是一个拥有大数据实时查询和分析的高容错、高性能开源分布式系统,旨在快速处理大规模的数据,并能够实现快速查询和分析。尤其是当发生代...

专题公告

大数据平台,数据仓库,olap,每周更新