简介
在机器学习(Machine learning)领域,主要有三类不同的学习方法:
- 监督学习(Supervised Learning): 通过已有的一部分输入数据与输出数据之间的关系,生成一个函数,将输入映射到合适的输出,例如分类
- 非监督学习 (Unsupervised Learning ):直接对输入数据进行建模,例如聚类
- 半监督学习 (Semi-supervised Learning):综合利用有类标的数据和没有类标的数据,来生成合适的分类函数
监督学习
- 由训练资料建立一个模式,并依此推测新的实例。训练资料是由输入物件(通常是向量)和预期输出组成,函数的输出可以是一个连续的值(回归分析),或者是一个标签(分类)
- 一个监督学习者的任务是在观察完一些训练案例之后,去预测这个函数任何可能出现的值的输出,为了达到这一个目的,学习者必须以合理的方式从现有的资料预测到非观察到的情况,我们称之为概念学习
著名的分类器: 人工神经网络、支持向量机、最近邻居法、高斯混合模型、朴素贝叶斯方法、决策树和径向基函数分类
无监督学习
- 无监督式学习(Unsupervised Learning )是人工智能网络的一种算法(algorithm),其目的是去对原始资料进行分类,以便了解资料内部结构。有别于监督式学习网络,无监督式学习网络在学习时并不知道其分类结果是否正确,亦即没有受到监督式增强(告诉它何种学习是正确的)。其特点是仅对此种网络提供输入范例,而它会自动从这些范例中找出其潜在类别规则。当学习完毕并经测试后,也可以将之应用到新的案例上。
- 无监督学习里典型的例子就是聚类了。聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。
k-means聚类:具体细节
半监督学习
其基本思想是利用数据分布上的模型假设,建立学习器对未标签样本进行标签。半监督学习就是在样本集S 上寻找最优的学习器。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。
半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习,从概率学习角度可理解为研究如何利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好性能的分类器。这种联系的存在是建立在某些假设的基础上的,即聚类假设(cluster assumption)和流形假设(maniford assumption)。