HiveSql调优经验/2021-02-15

join长尾

背景

sql在join执行阶段会将join key相同的数据分发到同一个执行instance上处理。如果某个key上的数据量比较多,会导致该instance执行时间比其它instance执行时间长。其表现为:执行日志中该join task的大部分instance都已执行完成,但少数几个instance一直处于执行中,这种现象称之为长尾。

长尾类别&优化方法

小表长尾

join倾斜时,如果某路输入比较小,可以采用mapjoin避免倾斜。mapjoin的原理是将join操作提前到map端执行,这样可以避免因为分发key不均匀导致数据倾斜。但是mapjoin的使用有限制,必须是join中的从表比较小才可用。所谓从表,即left outer join 中的右表,或者right outer join中的左表。

热点值长尾

如果是因为热点值导致长尾,并且join的输入比较大无法用mapjoin,可以先将热点key取出,对于主表数据用热点key切分成热点数据和非热点数据两部分分别处理,最后合并。
举例说明,
有两张表,日志表log即用户点击的日志,含有商品ID字段:p_id;
商品表product,含有商品名称p_nam,商品ID:p_id
需要计算所有商品的pv

--取热点值,取商品pv大于10000的商品到临时表
INSERT TABLE topk_product;
SELECT DISTINCT
    p_id
FROM
    (
        SELECT p_id, COUNT(1) AS pv FROM log GROUP BY p_id
    )
    a
WHERE
    pv > 10000;
--取出非热点值和商品 join 得到非热点商品的pv
SELECT
    b.p_id,
    b.p_name,
    c.pv
FROM
    (
        SELECT p_id, p_name FROM product
    )
    b
JOIN
    (
        SELECT
            m.*
        FROM
            (
                SELECT p_id, COUNT(1) AS pv FROM log
            )
            m
        LEFT JOIN
            (
                SELECT p_id FROM topk_product
            )
            n
        ON
            m.p_id = n.p_id
            AND n.p_id id NULL--注意这里
    )
    c ON b.p_id = c.p_id
--取出热点值和商品 join 得到热点商品的pv
SELECT
    b.p_id,
    b.p_name,
    c.pv
FROM
    (
        SELECT
            a.*
        FROM
            (
                SELECT p_id, p_name FROM product
            )
            a
        JOIN
            (
                SELECT p_id FROM topk_product
            )
            b
        ON
            a.p_id = b.p_id
    )
    b
JOIN
    (
        SELECT
            m.*
        FROM
            (
                SELECT p_id, COUNT(1) AS pv FROM log
            )
            m
        JOIN
            (
                SELECT p_id FROM topk_product
            )
            n
        ON
            m.p_id = n.p_id
    )
    c ON b.p_id = c.p_id
--最后用union all 热点和非热点数据即可

空值长尾

join时,假设左表存在大量空值,空值聚集在一个reduce上,由于左表存在大量的记录,无法用mapjoin。此时可以使用coalesce(left_table.key,rand()*9999)将key为空的情况下赋予随机值,来避免空值集中造成长尾。
或者这样写也可:coalesce(site_id,'') /left outer join xxx where coalesce(xxxxxx,'null')!='null'

map长尾

map端读取数据时,由于文件大小分布不均匀,一些map任务读取并处理的数据特别多,一些map任务处理的数据特别少,造成map端长尾。这种倾斜没有特别好的方法,只能调节splitsize来增加mapper数量,让数据分片更小,以期望获得更为均匀的分配。

reduce长尾

由于distinct操作的存在,数据无法在map端的shuffle阶段根据group by 先做一次聚合操作,减少传输的数据量,而是将所有的数据都传输到reduce端,当key的数据分布不均匀时,就会导致reduce端长尾,特别当多个distinct同时出现在一段sql代码中时,数据就会被分发多次,不仅会造成数据膨胀N倍,也会把长尾现象放大N倍。

--只有一个distinct的情况
--原sql
SELECT
    d1,
    d2,
    COUNT(DISTINCT
    CASE
        WHEN a IS NOT NULL
        THEN b
    END) AS b_distinct_cnt
FROM
    xxx
GROUP BY
    d1,
    d2
--修改后的sql;建立临时表,先count在sum
CREATE TABLE tmpl AS
SELECT
    d1,
    d2,
    b,
    COUNT(
        CASE
            WHEN a IS NOT NULL
            THEN b
        END) AS b_cnt
FROM
    xxx
GROUP BY
    d1,
    d2,
    b
SELECT
    d1,
    d2,
    SUM(
        CASE
            WHEN b_cnt > 0
            THEN 1
            ELSE 0
        END) AS b_distinct_cnt
FROM
    tmpl
GROUP BY
    d1,
    d2
--多个distinct的情况
--原始sql
SELECT
    d1,
    d2,
    COUNT(DISTINCT
    CASE
        WHEN a IS NOT NULL
        THEN b
    END) AS b_distinct_cnt,
    COUNT(DISTINCT
    CASE
        WHEN e IS NOT NULL
        THEN c
    END) AS c_distinct_cnt
FROM
    xxx
GROUP BY
    d1,
    d2
--修改后的sql
CREATE TABLE tmpl AS
SELECT
    d1,
    d2,
    b,
    COUNT(
        CASE
            WHEN a IS NOT NULL
            ELSE b
        END) AS b_cnt
FROM
    xxx
GROUP BY
    d1,
    d2,
    b
    
CREATE TABLE tmpl_1 AS
SELECT
    d1,
    d2,
    SUM(
        CASE
            WHEN b_cnt > 0
            THEN 1
            ELSE 0
        END) AS b_distinct_cnt
FROM
    tmpl
GROUP BY
    d1,
    d2
    
    
CREATE TABLE tmp2 AS
SELECT
    d1,
    d2,
    c,
    COUNT(
        CASE
            WHEN e IS NOT NULL
            ELSE c
        END) AS c_cnt
FROM
    xxx
GROUP BY
    d1,
    d2,
    c
    
CREATE TABLE tmp2_1 AS
SELECT
    d1,
    d2,
    SUM(
        CASE
            WHEN c_cnt > 0
            THEN 1
            ELSE 0
        END) AS c_distinct_cnt
FROM
    tmp2
GROUP BY
    d1,
    d2
    
    
SELECT 
t1.d1,t1.d2,
t1.b_distinct_cnt,
t2.c_distinct_cnt
from tmpl_1 t1 
LEFT join  tmp2_1 t2 
on t1.d1=t2.d1 
and t1.d2=t2.d2
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,558评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,002评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,024评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,144评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,255评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,295评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,068评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,478评论 1 305
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,789评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,965评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,649评论 4 336
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,267评论 3 318
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,982评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,223评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,800评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,847评论 2 351

推荐阅读更多精彩内容

  • 一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,...
    qydong阅读 2,324评论 0 0
  • 第12章 元数据第13章 计算管理第14章 存储和成本管理第15章 数据质量第16章 数据应用 第12章 元数据 ...
    天线嘟嘟茄阅读 2,718评论 0 1
  • 1、什么是数据倾斜? 数据分布不均匀,造成数据大量的集中到一点,造成数据热点 2、Hadoop 框架的特性 A、不...
    惊不意外阅读 1,883评论 2 5
  • 长尾问题(数据倾斜) 发生长尾问题的原因 在MapReduce中,Map阶段和Reduce阶段都有可能由多个节点进...
    眼君阅读 3,305评论 0 9
  • 1、感受Hive调优多样性 (1)SQL书写方式举的是multi-insert的例子(2)文件块大小输入文件划分与...
    kaiker阅读 2,008评论 0 0