从刚注册简书时强迫自己写文章时的拖延,到现在有了想法不自觉的想记录下来,是好的转变。
最近开始对数据挖掘很感兴趣,在网易公开课上开始学加州理工的《机器学习和数据挖掘》,还可以顺便练练英语听力。
第一课《学习问题》只要从问题引入,介绍什么是机器学习,以及常见的学习分类。
在人类的认知中一些显而易见的结论,对机器而言是一个却是无限靠近的过程,比如婴儿可以快速识别一张脸的情绪等。
课中介绍了银行信贷审批的例子。阐述了人类的认知是,input x(客户提供的各方面信息),output y(审批结论),在人类的大脑中有一个模型f(x)=y。而机器学习则是从历史的(x,y)中尝试去推导一系列假设集,不断验证优化,以期得到一个尽可能靠近f(x),用于在未来的场景中,机器可以脱离人类,在得到x输入时,得到y.
所以机器学习的三个要素是:
1、have data(基础,没数据没法玩)
2、要解决的问题域存在模型
3、模型目前是未知的(因为未知才需要机器不停学习,无限靠近,如果已知,那只是计算而已)
接下来还是用银行信贷审批的例子,机器学习按照学习形式分为以下四类:
1、有监督学习:即提供历史( x1,y1)...(Xn,Yn)的基础上,让机器进行学习,以求在未来输入某个时能输出正确的y。
2、无监督学习:仅提供特征X,不提供y,让计算机学习找出特征的内在结构,比如分类等。
3、半监督学习(课堂中未提及此点,查阅其他中文资料后补充):顾名思义介于有监督和无监督之间,一部分特征有标记,一部分特征无标记,且往往无标记特征极大于有标记特征,常常用于数据并不完全随机分布存在极限值,通过没标记的整体数据+有标记的局部特征得到更好的分布结果。
4、加强学习:给出特征集,和正确/错误标记,类似正确奖励错误惩罚,不断强化训练。比如下棋等需要连续决策的领域。
其他:
不知道是听力退步还是印度英语的原因,断断续续停下来还比较依赖字幕。需要继续加油。