1、数据收集与预处理
数据决定了机器学习结果的上限,而算法只是尽可能逼近这个上限。有数据最好,没有数据的时候,那就用爬虫去爬呗。但不管怎样,我们得到的数据大多是非规则数据(存在数据缺失、错误等),而后需要我们花费大量时间做的一件事便是数据预处理(归一化、离散化、因子化、缺失值处理、去除共线性等)。
2、特征选择(特征工程)与模型构建
好的数据要能够提取出好的特征才能真正发挥效力,数据在喂进算法之前需要将其转化为机器能够读懂的语言。这个过程还是相当难的,怎么去转化,是按照映射编码的方式还是怎么怎么样,有太多中方式,具体采用何种编码方式还要经过不断的验证。选取合适的特征来表征数据的特性,摈弃或削弱非显著特性。下一步即是训练一个学习器,以分类来说吧,我们就需要规定分类的边界,对数据进行训练得到一个分类器。
3、评估与预测
训练得出的分类器能否达到我们想要的效果还要在非训练集上经过一定的验证才可以。通常情况下我们在将数据喂进算法之前已经将数据分为了训练集、测试集以及验证集。通过验证对算法进行反复的调优最终达到我们想要的标准。