- 基于spark xgb 对于潜在新用户的弱特征进行建模,都是用关联的老用户的业务统计值、标签的统计值建模。
- label_1 :历史邀请发生注册的用户,label_0:这些邀请的老用户关联的所有的潜在新用户,未发生注册。
- 第一版的准确性只有55%。
- 因为这些潜在新客,无法获取其自身的相关特征,只能根据一度关系获取特征,故无法从特征上继续着手。
- 将label_1 为注册,改为发生业务1,准确性提升到65%;改为业务2,还维持在57%。
- 将潜在新客的特征中,有一个特征关联了多少个老用户,做过滤。取uv_total > 3,作为负样本,发生业务1的作为负样本,同时在建模的时候,将uv_total去掉,避免因uv_total在正负样本中的差异,而影响模型效果。结果在业务1上模型准确性提升到72%,其他几个业务提升到70%。
结论:
弱模型在无法新增有效特征的时候,考虑将特征的覆盖度做优化。uv_total <4时,很多特征的覆盖就很少。
问题:
加上uv_total 对负样本进行过滤,会导致负样本的所有统计特征的值会普遍偏大,导致样本特征有偏,也会对模型效果带来影响!!!
xgb模型准确性很低的调优
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...