xgb模型准确性很低的调优

基于spark xgb 对于潜在新用户的弱特征进行建模，都是用关联的老用户的业务统计值、标签的统计值建模。
label_1 :历史邀请发生注册的用户，label_0：这些邀请的老用户关联的所有的潜在新用户，未发生注册。
第一版的准确性只有55%。
因为这些潜在新客，无法获取其自身的相关特征，只能根据一度关系获取特征，故无法从特征上继续着手。
将label_1 为注册，改为发生业务1，准确性提升到65%；改为业务2，还维持在57%。
将潜在新客的特征中，有一个特征关联了多少个老用户，做过滤。取uv_total > 3，作为负样本，发生业务1的作为负样本，同时在建模的时候，将uv_total去掉，避免因uv_total在正负样本中的差异，而影响模型效果。结果在业务1上模型准确性提升到72%，其他几个业务提升到70%。
结论：
弱模型在无法新增有效特征的时候，考虑将特征的覆盖度做优化。uv_total <4时，很多特征的覆盖就很少。
问题：
加上uv_total 对负样本进行过滤，会导致负样本的所有统计特征的值会普遍偏大，导致样本特征有偏，也会对模型效果带来影响！！！