统计学,机器学习,线性代数里面有很多听起来很复杂的概念(科学家总是喜欢给一些简单的东西搞复杂的高大上的名字)。这个文章就是用我自己的理解,对这些概念做出几句话的解释或图画说明,以及一个好理解的概念。长期更新
机器学习相关
1)训练集/验证集/测试集
一个数据集,按比例(一般是8:1:1或者7:1.5:1.5或者大致比例)分为三部分,即训练集,验证和测试集。
训练集:把一个学生理解为一个做题的模型,那么可以理解为平时做的家庭作业就是训练集,通过这些习题,总结一套解题的方法(模型的系数矩阵)。这个解题的方法就是模型。
验证集:可以理解为期末考试,拿一份新的试题(学生之前没有见过,如果是原题的话,大家都是满分了),让学生去做,也就是验证之前解题方法(模型)的效果。如果效果不好,再回头做更多的家庭作业调整解题方法(模型),直到期末考试的成绩比较理想为止。
测试集:可以理解为最终的高考,再拿一套新的试题(家庭作业和期末考试都没见过的),考学生的解题方法,得到一个分数,这个分数就是测试集的结果,也就是最终这个模型的效果(家庭作业和期末考试的成绩不能算数,因为你都见过很多次了,分数再高也不奇怪)
2)过拟合
正规解释:模型在测试集上的效果(召回率精确率),比同一个模型在训练集上效果要差,这种现象叫做过拟合
通俗解释:
你可以把自己理解为一个模型,训练集就是你平时回家做家庭作业的结果。测试集就是你期末考试的成绩。过拟合就是说你平时考试成绩都挺好的,但是期末考试考砸了(比平时差),为什么呢?因为你只会解答你见过的题目(没有融汇贯通举一反三,或者说泛化能力差),新出来的(和之前做过的变化比较大的题目)有很多你没太见过的就不太会,所以成绩就差了一些。
发现一张图可以很好的解释过拟合
3)正则化
概念解释:当一个模型使用的特征过多,导致模型过于复杂而泛化能力下降,引起过拟合。这时我们就需要将模型中的特征数量减少从而降低模型的复杂度,降低过拟合的风险。简单说就是特征降维。
通俗解释:
还拿考试来举例子,好像你平时做习题的时候总结了一套特别复杂的方法(模型)来解一类题型,但是这个方法过于复杂了只能用在这一种题型中而对其他类似的题型效果不好,所以如果期末考试出来其他题型的话成绩就会差。正则化的意思就是降低你这个方法的复杂程度,让他尽量满足更多的题型从而在期末考试得到更好的成绩。
4)有监督学习/无监督学习/半监督学习
有监督:即需要人工进行标注(label),算法以这个标注的结果作为基准监督自己的模型参数,常见的有分类(label为离散值)和回归(label为连续值)两种
无监督:即不需要人工进行标注,算法根据数据自己的关系将数据分成x类(x也可以自己定义,如我想把某一份数据分成3类那x=3)
半监督:就是大量的数据集里面只有少部分有标注,而其余大部分都没有,这时候就用到半监督学习,半监督的大致思想是先用无监督把数据分成x类,再根据已经标注好的数据集,对每一类进行定义(某类里面标注为1类比较多的,那就把这一堆都标记为1类)
5)分类/回归/聚类
分类:有监督学习中的一种,label为离散值(也就是要预测的对象是离散的),按label的种类又可以分为二分类和多分类,如是否作弊(1/0),男性女性(1/0),收入高低(高/中/低),年龄阶段(0-10/10-20/20-40/40-60/60+)等,
回归:有监督学习中的一种,label为连续值(也就是要预测的对象是连续的),比如预测房价,预测股价等。
聚类:常见的无监督算法,自定义需要分类的数量,算法自动生成,如Kmeans
to be continued