背景:
- 数据量15w, 正负样本不均衡 负样本是正样本的4倍。
- 划分train :test_total为 1:1 ,各7.5w。
- 每次采样过后正负样本比例基本保持不变。1:4左右。
实验一: test上 auc 情况
baseline(test_total): 0.9053236079939212
减少test正样本(把test_total中正样本采样0.6) 0.9059026523456054
减少test负样本(把test_total中负样本采样0.6) 0.9053588704461231
实验二:
baseline(把test_total采样0.6): 0.9066580590793192
增加test正样本(把test_total采样过后剩下的0.4的所有正样本加到test_total) 0.9052347703915193
增加test负样本(把test_total采样过后剩下的0.4的所有负样本加到test_total) 0.9067454564120729
实验三:
baseline(把test_total采样0.2): 0.9031503391939627
增加test正样本(把test_total采样过后剩下的0.8的所有正样本加到test_total) 0.9039143105876674
增加test负样本(把test_total采样过后剩下的0.8的所有负样本加到test_total) 0.9046192176292482
对比实验123的baseline 感觉对于test采样后或增或减的现象,暂不太确定。毕竟每次采样虽然正负标签比例基本一致,但是分到的数据分布可能会不同。。
对比实验123,因为train本来就是负样本多,学出来的模型偏向于往负样本去预测,因此无论在那次实验中,只要让test中的负样本占比升高,auc都会升。
与2相反的情况:只要让test中的正样本占比升高,1升,2降,3升。但前提是模型对负样本学习的较好,会不会是因为这个原因所以正样本占比升高带来的变化不带稳定。。