机器学习是一门作预测的方法论和工具。预测,为什么?机器学习和人的学习一样,从经验中学习,在历史发生的数据中抽取出数据中存在的模式,因此机器学习是更接地气的,和学科结合密切的,不同的数据分布适合于不同的算法。所以,机器学习的算法不存在绝对的谁好谁坏,我们只能得到在当前数据集上比较好的算法,比较好的是什么意思?就是泛化能力相对较好的算法,即,用算法去预测未知数据的能力。当然这也是没办法直接去预测的,我如果知道了哪个算法泛化能力好,不是就说明我有预知能力嘛?事实上,我们是将经验数据分成了两部分,一部分用来训练学习算法,也就是用来发现数据的规律,另一部分是用来检验学习效果的。好,既然我们可以用来检验效果,那么这部分数据就一定是有答案的,我们用预测的结果和实际的结果比较,判断哪个算法学习到的知识准确,也就是测试误差小。用测试误差来近似泛化能力。好,那么分割训练集、测试集也是个麻烦事。本来我们用来学习的样本就不多,你还要拿一部分出来,那我在整个数据上学习的效果肯定和在子集上学习的效果有差距,如何尽量去避免这种问题呢。当前分割的方法主要有三种,第一:留一法,把数据分为两个子集,且没有交集,当然要保证采样的时候尽量不破坏数据本身的分布。什么意思呢,假如我要学习的模型是分类妹子和汉子(1表示妹子,0表示汉子)数据集的标记y有70个样本是1,30个是0。我们采样时候,把前70个都放到训练集去了,那肯定会出事呀,给的数据都是妹子的描述,学习器就认为所有的人都是妹子,在测试集一跑,哎呦妈呀,都预测错了,还不如随机猜测呢,起码有一半的正确率。那这个学习器出什么问题了,首先是样本没选好,在训练集中要差不多选70*0.7=49个妹子,21个汉子的样本,这样才能学到两者的内在模式,其次,学习器过拟合了,也就是说学习太好了,把训练集带的偏差也学到了,而这些偏差在其他样本中是没有的。那么这样的学习器泛化能力也不好。那学习器就郁闷了,你又要我学习的好,又要我不能学的太好,把随机噪声也学到。这又是一个折中,真的不好衡量。那我们咋解决呢,我们就看学习器在测试集上的表现。我们期望的是这样的学习器:在训练数据上误差很小,在测试集上误差也要接近训练误差,不能相差太远。闲话稍后在扯,继续数据集分割的讨论。第二种分割方法,k-折交叉验证,首先把样本几乎均匀的分成k份,编号依次是1,2,3...k我们依次的拿出一份做测试集,其余的k-1份数据做训练集,训练k个学习器,然后从里面选一个最好的,这种方法的优点是效果比上面说的留出法好,缺点嘛,训练了这么多学习器,成本也是蛮高的。所以,no free lunch,出来混,总是要还的,这就像算法里永恒的主题:空间和时间的协调。具体的折中策略,要根据场景去考虑,具体问题具体分析。第三种,booststraping。这种采样也是挺有趣的,有放回的采样,可是可是,统计里面的有放回是样本很多的情况,我们取很少几个。在机器学习里面,我们有m个样本,但是要采样的个数也是m,那这就会存在一些样本反复被抽中,一些样本从来没有被抽中,那这样的方法靠谱嘛?我的心也微微一颤,我们先来统计分析下,一共采样了m个,每个样本在每次采样中被抽中的概率都是1/m,那么没抽中的机会就是1-1/m,如果在m次采样都没被选中,概率是(1-1/m)^m,当m接近无穷大,上面的值大约是33.3%,大概1/3,还是挺多的哦,如果只做一次学习,如果样本比较多,不建议用这种方法。这种方法将在随机森林算法里大放异彩,这个概率也是很有用的,先立个flag。
然后机器学习和人学习一样嘛。机器学习算法有一大类问题是监督学习,也就是给的数据是带学习结果的,那好嘛,我先学,然后去和答案比较,差距太大,我就继续去学习呗。我学呀学,靠,不知道过了多久,我觉得学的效果挺好了,和答案相差不多了。那我总得评估我的效果吧,打个分吧。可是要怎么打分,头疼,这还不是得我们人来考虑。打分得前提首先得定个标准吧,就是得给个学习的具体目标吧,我一点点去靠近她,先放弃全局最优解,然后才能去接近最优。好,我们想,监督学习有两种,分类和回归。分类今天先不表。今天简单说下回归。回归就是给了一堆的特征,然后让你去预测一个数值,那么我们的优化目标可sigma|y-f(x)|嘛,去最小化这个,在高中就学过,如果一个大于目标a,一个小于目标a,两个就抵消了,但是,他们都是误差有偏差的,所以这个不靠谱,那么我们就平方吧,这个好,这个准则也确实挺管用,还有个专业名(mse),事实上,这个准则可以通过假定误差(y-f(x))服从高斯分布得到,而我们知道,高斯分布假设是合理的。于是我们的第一个模型,线性回归就呼之欲出了,线性是说特征的参数theta是线性的,不存在交叉项,特征之间是可以交叉的,在优化函数里加上l1范式,就得到了LASSO回归,l1范式可以保持特征的稀疏性,因此可以用于特征的选择,在优化目标里加上l2范数,就得到了Ridge回归,如果是l1,l2的组合,就叫做弹性网。好,继续,如果我们假定误差之间不是均等的,也就是考虑不同的误差给不同的权重,就得到了局部加权回归,权重可以采用rbf,又是高斯核。再次膜拜大神。如果是另一种假设,预测值和实际的差别在€之间,我们认为不存在误差,也就是只有在这两条隔离带之外的才计入损伤。那么,我们就得到了svr支持向量回归。哇,一下好多算法,蒙了。我们来整理下。
总结:回归有以下几种算法,基本的线性回归、lasso、ridge、弹性网、局部加权回归、svr,局部加权可以用先验知识。这六种算法。