摘要:主要介绍为什么需要机器学习以及机器学习的big picture。
1.为什么需要机器学习
我们可以用很多if 语句去指定规则,使得机器作出相应的行为,但是他的局限就在于,人很难考虑到所有的可能性,机器作出的所有行为都必定在人类可以考虑到的范围,那么这样子的机器就永远不可能超越人类。我们想要做的是让机器拥有自己学习和思考的能力,不局限于人类定制的规则。假设你要叫他学会做语音辨识,你就告诉它这段声音是“Hi”,这段声音就是“How are you”,这段声音是“Good bye”。我们希望接下来它就学会了,你给它一个新的声音,它就可以帮你产生语音辨识的结果。
2.机器学习归根结底是从一堆function中寻找best function的过程。
3.big picture of machine learning【机器学习的图谱】
根据不同的学习情景,我们可以选择不同的机器学习分类:监督学习、非监督学习、半监督学习、transfer learning(迁移学习)和强化学习reinforcement。当获取的数据是labeled时,我们可以采用监督学习,但是通常获取大量的labeled数据是很困难的,半监督学习就应运而生,它要求部分数据labeled允许部分数据unlabeled。另外一种可以减少labeled数据的方法就是迁移学习,引用李老师课程介绍--迁移学习的意思是:假设我们要做猫和狗的分类问题,我们也一样,只有少量的有label的data。但是我们现在有大量的data,这些大量的data中可能有label也可能没有label。但是他跟我们现在要考虑的问题是没有什么特别的关系的,我们要分辨的是猫和狗的不同,但是这边有一大堆其他动物的图片还是动画图片(凉宫春日,御坂美琴)你有这一大堆不相干的图片,它到底可以带来什么帮助。这个就是迁移学习要讲的问题。当数据不满足监督学习条件时,我们可以用非监督学习或者强化学习。强化学习与监督学习最大的不同是,在监督学习中我们会告诉机器正确答案是什么,而在强化学习中我们只会给分数,机器从评价中学习。reinforcement learning其实是比较符合我们人类真正的学习的情景的,监督学习就像是我们在学校里面的学习,老师会告诉我们答案,但在真实社会中没人会告诉我们正确答案。
根据不同的分析任务,机器学习可以分为三类:回归模型、分类模型以及结构化学习。回归模型输出的是数值变量,分类模型输出的是分类变量,结构化学习输出的是有结构的变量(具体这里不是很懂,大概是很复杂不是简单的单一值的意思),结构化学习目前运用有语音识别(根据一段语音输入,输出一段语音)以及语句翻译。
确定分析任务后,我们就在相应的模型类型下结合具体情况选择具体的模型,如决策树、svm、线性回归模型等。