训练模型优化方案:
时间瓶颈分析:
流程:
相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析
场景:
每人目录下有多个模型,只有 正则化参数不同
当前方案:
参数不同,重跑 整个流程 相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析
优化方案:
只是模型训练的参数不同,可以在模型中添加initweight,整个流程:耗时144分钟,优化后,只需要6分钟,只需4%的时间,即时间效率提升24倍。
空间瓶颈分析:
流程:相同打分-》抽样-》离散化 -》样本转labeledPoint -》lr train --》特征有效性分析
场景:每人目录下有多个模型,只有 正则化参数不同
优化方案:打分、抽样、离散化、样本转labeledPoint 这些数据都可以共用。仅仅参数不同,只需要1/10的空间。即空间效率提升10倍。
评估:
“参数不同”的场景占比多少?假如占比为ratio,则优化后为 空间消耗总量* ratio*0.1
举例:
我的空间消耗15T ,“参数不同”的场景占1/3,即 此场景为5T,优化后,只需要0.5T,即500G。节省30%左右。