今天上课闲来无聊,想了想机器学习这个东西,结果东想西想,想到了应试教育,然后觉得有点儿意思,就写下来,算做个记录,也算是做个机器学习的科普。
机器学习是什么呢,我想对于很多人而言,这一部分是神秘陌生高大上的,机器竟然可以学习!!“深蓝”通过学习打败了象棋冠军;AlphaGo通过学习打败了世界围棋冠军;小度通过学习登上了最强大脑,连战三场,未尝败绩......等等一系列的新闻大家都知道,并为之惊叹,但对于机器学习到底是什么,恐怕依旧一团迷糊。
- 变形记
一天早晨,格里高尔·萨姆沙从不安的睡梦中醒来,发现自己躺在床上变成了一只巨大的甲虫。他仰卧着,那坚硬的像铁甲一般的背贴着床,他稍稍抬了抬头,便看见自己那穹顶似的棕色肚子分成了好多块弧形的硬片,被子几乎盖不住肚子尖,都快滑下来了。比起偌大的身驱来,他那许多只腿真是细得可怜,都在他眼前无可奈何地舞动着。
“我出了什么事啦?”他想。这可不是梦。他的房间,虽是嫌小了些,的确是普普通通人住的房间,仍然安静地躺在四堵熟悉的墙壁当中。在摊放着打开的衣料样品——萨姆沙是个旅行推销员——的桌子上面,还是挂着那幅画,这是他最近从一本画报上剪下来装在漂亮的金色镜框里的。画的是一位戴皮帽子围皮围巾的贵妇人,她挺直身子坐着,把一只套没了整个前臂的厚重的皮手筒递给看画的人。
格里高尔的眼睛接着又朝窗口望去,天空很阴暗——可以听到雨点敲打在窗槛上的声音。
这是节选自卡夫卡《变形记》开头的片段,写的非常精彩,我在读到这一段时,莫名的会感到兴奋,这是一种黑色幽默。在格里高尔·萨姆沙的房间里,他可以准确的知道自己变成了甲虫,准确的知道他还是在房间里,他的衣料样品,他的画,对他而言都那么熟悉,还有窗外的天空、雨点,他都可以准确的知道。
那,他为什么会这么准确的知道这些东西呢?
我们知道,一个孩子出生时,看到的东西都是不认识的,他不会开口就说这个是什么,那个是什么,当然,不是每个人都像贾宝玉这样,开口就说“这个妹妹我曾见过的”。所以说,格里高尔·萨姆沙能够准确的了解到这一切,是因为他有这方面的经验,换句话说,就是“这些都是曾见过的”。
我们见过了一只猴子,以后再见到猴子时就会知道,那是猴子。这就是人的基本学习过程,基于经验的学习。而机器学习,是模仿人的学习模式的,也是一种基于经验的学习。
那,经验是怎么来用的呢?
对机器学习有所了解的自然会想到,特征。猴子有猴子的特征,树有树的特征,这样就不会把猴子认成树了。再比如说,如果一个动物学家,他看到一只猴子时,还可以知道,这只猴子是什么种类的猴子,这是为啥呢?因为他掌握了更多更细的特征,足以分辨各种不同的猴子!
基于经验来进行学习,这就是机器学习!
- 机器学习与应试教育
解释完了机器学习的概念,下面来说说机器学习里面的一些概念。
数据集
机器学习有数据集,而数据集分训练集,验证集和测试集,这是个啥意思呢?其实,训练集就相当于学习的教材,用于最初的学习;验证集就相当于平时做的作业,用来加强学习效果,发现学习的不足并改善;而测试集就相当于考试的试卷,用来测试学习的效果。欠拟合
欠拟合是个啥意思呢?比如说考试,拟合就是你写的答案和考试正确答案的重叠程度。准确率就是评判拟合的标准,相当于一次考试的分数。拿人来说,考了59分,就是没及格,没考好,机器学习就是欠拟合。泛化能力
对机器学习来说就是,训练出来的模型(模型是个啥,这样解释吧,人学习到的东西装在大脑里面是个啥?不清楚,就给个概念,称为模型吧),适应新的数据集的能力,也就相当于人认识了一只猴子,然后去认识其他各种各样的猴子的能力,这个对人而言,叫做举一反三,对机器而言,就叫做泛化能力。而平时人在学习时,可以把人走入社会中知识的运用能力称作为一个泛化能力。过拟合
欠拟合已经很好解释了,过拟合这个怎么解释呢?咋一看,过拟合就相当于人学的太好了,这对于人是好事情啊!对于机器却不是个好事情,这是需要值得慎重考虑和改进的东西!参考泛化能力,过拟合就是说“学得太死板了”!比如说一个人学习时,看到的所有的西瓜都是有籽的,某一天看到一个无籽西瓜,就断定,这不是一个西瓜。这就是一个过拟合的例子,也就是说,机器学到了过多的特征,从而产生了噪音,对新的数据的识别过程产生了干扰,从而识别错误。对于人而言,就是说,考试有考200分的能力,但是除了考试其他的啥都不会干。
对于机器学习而言,增大样本,持续学习都可以增强泛化能力,AlphaGo得到的学习样本越多,学习的时间越长,也就越厉害!!所以,从科学的角度来看(可以数学证明),应试教育下的孩子,多看课外书,多做社会实践,多花时间学习,也是非常有利于提高学习能力的!!