引言:
最近开始学习“机器学习”,早就听说祖国宝岛的李宏毅老师的大名,一直没有时间看他的系列课程。今天听了一课,感觉非常棒,通俗易懂,而又能够抓住重点,中间还能加上一些很有趣的例子加深学生的印象。
视频链接(bilibili):李宏毅机器学习(2017)
另外已经有有心的同学做了速记并更新在github上:李宏毅机器学习笔记(LeeML-Notes)
所以,接下来我的笔记只记录一些我自己的总结和听课当时的困惑,如果有能够帮我解答的朋友也请多多指教。
1、人工智能、机器学习、深度学习的关系
人工智能是目标,机器学习是实现目标的手段,而深度学习是实现机器学习的方法之一。
人类想要创造“智能”,有两种方式:
- hand crafted rules(人工编制的规则):需要大量的
if then
,是一种被摒弃的路线 -
让机器可以自己学习:是课程探讨的方向
Yann LeCun曾经在twitter上发过的一则漫画,讽刺的是很多外形酷炫的所谓AI,拆开看源码其实就是很多的hand crafted rules程序而已。这又不得不让人联想到以前有人说过,“用PPT写的往往不是人工智能,用python写的才是”。这么看来,用python写的也不保险啊。
2、机器学习做的是什么事情?
机器学习≈寻求一个函数(function)
这个函数可以在我们输入确定的数据,经过它以后,可以输出我们想要的结果。
3、机器如何学习?
如何找到上面提到的函数?以图像识别为例,想要找到合适的函数,需要先准备一系列的函数,这一系列的函数集被称为模型(Model)。模型里有的函数是我们需要的,比如上图中的f1,因为当你输入猫的图片,它可以给出正确的结果。而f2显然不是我们想要的函数。机器学习的目的就是要找出可以认出所有动物的最优函数f*。当在训练数据中,既给出了输入的数据(图片),又给出了我们想让机器输出的结果(动物的名称),这种机器学习被称为监督学习。在监督学习中给出的输出结果又被称为标签。
4、机器学习的步骤
机器学习的过程往往分为3大步(类似于将大象放进冰箱):
- 定义一个函数集合,或者选择何种模型
- 让机器可以衡量一个函数的好坏
- 让机器可以挑出最好的函数
5、机器学习的学习路线
机器学习分为(按场景,越来越难):
- 监督学习(按任务):
- 回归问题(regression):需要输出的是数字(scalar),比如预测明天PM2.5的数据
- 分类问题(classificasion):
- 二元分类问题:需要输出的是“是”或“否”,比如垃圾邮件的判别
- 多元分类问题:比如新闻内容的自动分类,属于财经、体育、政治……
- 结构化学习(structure learning):就像暗黑大陆,有很多我们还不了解的东西,比较有名的方法——生成对抗网络GAN
- 半监督学习:少量有标签的数据,大量无标签数据
- 迁移学习:除了有一些无标签的数据,还有大量与要做的工作无关的数据
- 无监督学习:无标签的数据学习
- 强化学习:需要通过评价来学习,learning from critics,比较符合人类学习的模式
其中分类问题可以用到的模型有:
- 线性模型:最简单
- 非线性模型:要主要花精力的地方,非线性模型里最耳熟能详的就是深度学习模型(又分为以下方法):
- 深度学习
- 图像识别:吴恩达当年在google用深度学习让计算机识别出了猫
- 围棋:AlphaGo,类似于一个19*19(围棋棋盘)的分类问题
- K-NN
- 决策树
- SVM(支持向量机)
- 深度学习