机器学习工业界出现两种截然不同声音,一派是「调参」(优先实践,后理论),另一派是「理论」(优先理论,后实践)
其实都不对,老实说目前见到的「调参」就提升个 2-3 % (超参数),对商业很多问题不是特别重要,倒不如换个新算法或者弄个特征工程(增加新维度)。「理论」在工业界运用更加不靠谱,主要是理论与实际不贴切,比如:
- 缺失值怎么处理
- 多分类问题怎么做
- 不平衡样本怎么分析
- 数据量不多怎么办
- ....
好的做法是优先使用现有成熟方法,以最快速度跑通模型得出结果,比如:
- 先抽样几万数据建模,准确率 70%,那么可以估计增加到百万级,模型准确率会变得更好
- 做好维度构建,好的维度 >> 算法 >> 调参
- 算法不要局限于机器学习,就提升那几个百分点,尝试别的类型方法 —— 网络分析、ODE 方程等其他数学方法