监督(supervised)=标签(label),是否有监督,就是输入数据(input)是否有标签,有标签则为有监督学习,没标签则为无监督学习。至于半监督学习,就是一半(一点点)数据有标签,一半(极其巨大)数据没标签。——简单一句话答案(正经回答在最后)。
首先从学习(learn)这个概念开始解释,所谓学习,就是闻一知十。
例如学数学,小学老师会先给大量训练,让人学会解题方法。之后面对考试的时候出现的绝对不同的题目,也能回答。机器学习也是一样,我们能不能用已经做过的题,来推断没做过的题呢?
有监督学习可以理解成已经打了标签(有答案)的数学题目,无监督学习就是没有答案的题目。
举例个简单的例子说明:
有监督学习:1 X 1 + 1 = ?
AI: 等于 1 ?
有监督学习:错! 等于2 !记住!
(AI调整中)
第二次:
有监督学习:1 X 1 + 1 = ?
AI: 等于 2 !
无监督学习:1 X 1 + 1 = ?
AI: 等于 1 ?
无监督学习:3 X 4 + 8 =?
AI: 等于 0 ?
。。。。。。。。。
AI:我发现了,数学题都是先乘法后加法!
半监督学习:1 X 1 + 1 = ?
AI: 等于 1 ?
半监督学习:错! 等于2 !记住!
(AI调整中)
第二次:
半监督学习:1 X 1 + 1 = ?
AI: 等于 2 !
半监督学习:恭喜你学会了,现在 3 X 4 + 8 = ?
AI: 等于 2 !
半监督学习:好的,我帮你标签(lable)一下,3 X 4 + 8 = 2
正经回答:
a) 监督学习是最常见的一种机器学习,它的训练数据是有标签的,训练目标是能够给新数据(测试数据)以正确的标签。
例如,想让AI知道什么是猫什么是狗,一开始我们先将一些猫的图片和狗的图片(带标签)一起进行训练,学习模型不断捕捉这些图片与标签间的联系进行自我调整和完善,然后我们给一些不带标签的新图片,让该AI来猜猜这些图片是猫还是狗。
经典的算法:分类算法
b) 无监督学习常常被用于数据挖掘,用于在大量无标签数据中发现些什么。它的训练数据是无标签的,训练目标是能对观察值进行分类或者区分等。相对于监督学习,无监督学习使用的是没有标签的数据。机器会主动学习数据的特征,并将它们分为若干类别,相当于形成「未知的标签」。
例如无监督学习应该能在不给任何额外提示的情况下,仅依据所有“猫”的图片的特征,将“猫”的图片从大量的各种各样的图片中将区分出来。
经典的算法:聚类算法
c)半监督学习介于两者之间。隐藏在半监督学习下的基本规律在于:数据的分布必然不是完全随机的,通过一些有标签数据的局部特征,以及更多没标签数据的整体分布,就可以得到可以接受甚至是非常好的分类结果。(此处大量忽略细节)
例如:很多实际问题中,只有少量的带有标记的数据,因为对数据进行标记的代价有时很高。比如找到照片并给照片上的猫标上标签(lable)很麻烦,但是猫的各种姿势的猫片网上一搜一大堆。那我们能不能手动标记一部分猫片,然后让AI学习训练,然后再剩下没标记的猫片上做实验呢?
经典算法:太多不举例了
参考文献: [1] 吴恩达在Coursera上的机器学习课程。 [2]西瓜书 [3]知乎和CSDN各种回答