240 发简信
IP属地:上海
  • 52 条 SQL 语句性能优化策略[转]

    本文会提到52条SQL语句性能优化策略。 1、对查询进行优化,应尽量避免全表扫描,首先应考虑在where及order by涉及的列上建立索引。 2、应尽量避免在where子句...

  • 120
    airflow的使用方法

    简介 airflow是airbnb家的基于DAG(有向无环图)的任务管理系统, 最简单的理解就是一个高级版的crontab。它解决了crontab无法解决的任务依赖问题。 类...

  • 120
    布隆过滤器(Bloom Filter)的原理和实现

    布隆过滤器使用场景 之前在《数学之美》里面看到过布隆过滤器的介绍。那么什么场景下面需要使用布隆过滤器呢? 看下下面几个问题 字处理软件中,需要检查一个英语单词是否拼写正确 在...

  • 120
    数据技术篇

    大数据阶段 数据采集层(1)数据库同步(DataX/同步中心)(2)消息中间件(离线、实时) 数据计算层 数据服务层 数据应用层 一. 日志收集 二、数据同步 1.同步基础 ...

  • SQL-分组月度环比同比

    有一个需求是按月份统计环比和同比值,每次都取一遍非常麻烦,同时也容易出错,这里我把要取的数据报表化,这里提供一个模板,这个SQL写了我好久,经过对比数据发现,这样写是没什么问...

  • Sqoop:Hive / Impala导出数据到MySQL Shell脚本记录

    摘要:Sqoop,MySQL,Hive,Impala 在Spark跑批到Hive的任务后面加入Sqoop任务,将数据从Hive导入MySQL提供在线查询服务,记录一下Shel...

  • MySQL常用30种SQL查询语句优化方法

    1、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。 2、对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 ord...

  • Hive总结及案例讲解

    完整hive总结 hive建立一张表,跟已经存在的结构化的数据文件产生映射关系。映射成功后,就可以通过写HQL来分析这个结构化的数据文件,避免了写mr程序的麻烦。 数据库:和...

  • 095-BigData-23Hive分区及DML操作

    上一篇:094-BigData-22Hive数据类型及操作 一、Hive分区 分区表实际上就是对应一个HDFS文件系统上的独立的文件夹,该文件夹下是该分区所有的数据文件。Hi...

  • 120
    数据仓库-Hive

    数据仓库(Data Warehouse ) 1.1 基本概念 数据仓库的目的是构建面向分析的集成化的数据环境, 为企业提供决策支持 (Decision Support ).数...

  • 120
    数据蛙 银行贷款检测案例

    本次信用卡检测欺诈案例训练模型的大致步骤 一、数据说明 导入数据 读取数据 由于涉及到客户资料的隐私(交易时间、交易卡号、交易银行代码),所以数据已经经过预处理,我们拿到上述...

  • 120
    常见的Hadoop大数据架构介绍

    1. 概述 随着互联网的快速普及,全球数据呈现出快速增长、海量集聚的特点。运用大数据技术对这些数据进行分析,使得人们的生产生活方式都发生了许多变化。数据分析虽然隐藏在业务系统...