先简单介绍一下自己的资料,本人男,南开大学人工智能专业毕业,现在厦门大学研究生在读,目前研一,学的还是人工智能。大爱啊!
至于为什么要写这一系列的机器学习文章,这还要从南开的智能专业讲起。南开的智能专业偏向于控制,本科学的除了计算机基础课程外主要就是什么现代控制论,自动控制什么的。到了厦门大学才发现,虽然都是人工智能方向,但是主要以计算机视觉,自然语言处理等为主。加上导师管的松,自己也就利用业余时间自学目前大热的机器学习领域知识了,菜鸟一枚,如果你在不幸中看到了我的文章,也欢迎交流。过一段时间等技术成熟了,将会开一个个人公众号,希望不会流产,也希望可以把这一系列的文章写完。
首先介绍一下机器学习,具体的准确定义大家可以维基一下,定义很多。我的理解就是通过大量的数据去驱动算法,以便达到提取数据某种想要的特征的目的。两个月前开始空杯学习,入门看的是机器学习界大牛吴恩达的网课,加上一本叫PRML的大部头的书。身边很多人都在看南京大学周志华的西瓜书,我也看过一半,感觉还是看英文书好理解一点。另外根据我的经验就是看资料的时候要一气呵成,有不懂得就用笔记记下来(我用的是印象笔记),不推荐碰到不会的就去花很久把知识点弄得很明白,这样容易走到岔路,偏离自己的学习目的(一把辛酸泪啊)。
机器学习目前分为三类,有监督学习,无监督学习和增强学习。根据机器学习界另一位大牛Yann Lecun的话,他把机器学习比喻成一个蛋糕,监督学习就好像是蛋糕上的糖霜,增强学习就像是蛋糕上的樱桃,而无监督学习才是蛋糕本身。可见机器学习的未来就是无监督学习了。可是目前发展最好的是有监督学习,各种神经网络层出不穷,实验效果也好出传统效果一大截,但是在标定数据的准备上实在是耗费人力,无论是大量数据的获取还是数据的准确标定都是十分劳民伤财的大工作,作者曾经帮实验室师兄标过两千条出租车人脸,每天面对着不同的人脸框啊框,真是身体和精神的双重这么,连个字,酸爽。而这还只是少量数据,真正的机器学习训练数据都是以万为单位的,想想就觉得腰疼,身体被掏空啊。
大背景讲完了,讲讲我用的工具吧。自己比较穷,实验室也不富裕,因此在训练网络的时候用的还是自己五年前的笔记本,大的网络肯定吃不消,入门级的还是可以跑跑的。这里建议大家学习一下Python,Python相对于C,C++要简单好多,有编程基础的几个小时就可以轻松入门,而且目前几个流行的神经网络框架像caffe,Tensorflow对python支持比较好。我用的是Tensorflow,在ubuntu系统下搭建的(目前Tensorflow对Windows的支持不太好)。Tensorflow是谷歌的开源项目,大家可以参考谷歌官方网站给的教程进行安装。(http://tensorfly.cn/tfdoc/get_started/introduction.html,这个是中国网友翻译过来的一个网站)
以上就是本篇文章要介绍的大致内容了,下一篇文章将从机器学习中的“Hello World”--“MNIST”入手简单入门一下机器学习。