在深度学习中是否需要特征工程中,阐述了在工业界的深度学习应用中,对特征工程的必要性。
在:高频特征打压 中通过特征的频率对其gradient进行scale,可以得到更好的效果,是比较gentle 的做法。
而如果做的更激进一些,对于低频特征,则可以通过特征的频率自动筛选,过滤掉过低频率的特征(可能引入噪音),提升泛化能力,同时可以防止过拟合。
如果做得更自动化一点,则可以通过机器学习来对特征进行筛选。
如训练一个相应的gbdt模型,根据其特征的权重排序来选择特征。
或者使用RandomizedLogisticRegression来筛选(无法获得组合权重)
当然,通过特征评估中对特征的数值化评估可能是个更好的方式进行一些可以预知效果的筛选