【提升显著性】CUPED计算

1、 CUPED介绍

(参考:https://blog.csdn.net/qq_38412868/article/details/128926536)

2、Hive SQL代码参考

with stats_info as (

    --进组id 的消耗处理

    select

        sample_id  --样本id

        ,version_id  --实验分组

        ,1 as join_key

        ,x1_30d_bef  --样本在实验进组前30天的累计值x1_30d_bef

        ,x1_td  --样本在实验中的累计表现x1_td

    from table

)

,theta_data as (

    --计算整体的 theta,大盘系数

    select

        1 as join_key

        ,nvl(covar_samp(x1_td, x1_30d_bef)/variance(x1_30d_bef), 0) as x1_theta  --系数

        ,avg(case when version_id = 'xxx' then coalesce(x1_30d_bef, 0) end) as x1_mean  --对照组样本在进组前的30日均值

    from stats_info

)

select

    sample_id

    ,version_id

    ,x1_td - x1_theta*x1_bef_30d + x1_theta*x1_mean as cuped_x1

from stats_info aa left join theta_data bb

on aa.join_key = bb.join_key

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容