关于auc的一次实验

背景：

数据量15w, 正负样本不均衡负样本是正样本的4倍。
划分train ：test_total为 1:1 ，各7.5w。
每次采样过后正负样本比例基本保持不变。1：4左右。

实验一：                                                               test上 auc 情况
baseline(test_total)：                                              0.9053236079939212  
减少test正样本(把test_total中正样本采样0.6)                           0.9059026523456054
减少test负样本(把test_total中负样本采样0.6)                           0.9053588704461231

实验二：
baseline(把test_total采样0.6):                                        0.9066580590793192
增加test正样本(把test_total采样过后剩下的0.4的所有正样本加到test_total)  0.9052347703915193
增加test负样本(把test_total采样过后剩下的0.4的所有负样本加到test_total)  0.9067454564120729

实验三：
baseline(把test_total采样0.2):                                         0.9031503391939627 
增加test正样本（把test_total采样过后剩下的0.8的所有正样本加到test_total）  0.9039143105876674
增加test负样本（把test_total采样过后剩下的0.8的所有负样本加到test_total）  0.9046192176292482

对比实验123的baseline 感觉对于test采样后或增或减的现象，暂不太确定。毕竟每次采样虽然正负标签比例基本一致，但是分到的数据分布可能会不同。。
对比实验123,因为train本来就是负样本多，学出来的模型偏向于往负样本去预测，因此无论在那次实验中，只要让test中的负样本占比升高，auc都会升。
与2相反的情况：只要让test中的正样本占比升高，1升，2降，3升。但前提是模型对负样本学习的较好，会不会是因为这个原因所以正样本占比升高带来的变化不带稳定。。

最后编辑于：2021.03.19 11:02:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

关于auc的一次实验

关于auc的一次实验

相关阅读更多精彩内容

友情链接更多精彩内容