引言
特征是非常重要的——特征决定了模型的上限,而算法只是在逼近这个上限。
好特征的标准
1、模型角度
带有准确的独立的意义,即该特征含义非常明确,能够恰好表达这个含义。
2、数值角度
是经过了合理的归一化的;表示形式上与其他特征类似,易于进行concat等操作
如何得到一个好特征
1、含义上的仔细确认
2、选择合适的编码形式
3、选择合理的归一化方法
常见的处理办法
进化算法:Fitness function、Selection、Crossover、Mutation
统计方法:Feature significance hypothesis testing、Multiple testing procedure
机器学习方法:基于决策树的模型、learning to Rank