我们有一大堆没有标签的数据和一小部分标签数据,那么我们应该怎样进行学习呢?
这里提出自我学习的概念
先用稀疏自编码提取特征
训练好参数后,把最后一层拿掉
然后我们把有标签的数据通过这一网络
可以产生此网络提取的特征
当然我们也可以和原始数据组合作为整体输入
我们可以用新获得的数据(上面两种之一),进行监督学习,例如用SVM或逻辑回归,训练一套分类网络;以后新数据来了我们就先通过稀疏编码网络提取特征然后用这一新的特征组合作为训练好的分类网络输入即可。
自我学习和半监督学习
加入你只有少量标签数据,那么你可以从网上随便找一个数据集(不一定是同一类的,例如自己的是汽车但可以用整个imagenet训练),训练稀疏自编码网络提取特征,然后在用自己的标签数据进行有监督训练
如果你自己有大量数据集(同一类的,例如都是车),但是只是大部分标签丢失了,那么你可以用半监督学习(这和上面做法有什么区别???),但实际上不太可能满足这一要求,所以自我学习是实际中更多碰到的形式。