1. AL回答的问题
如果机器能问问题的话, 他们能用更少的样本完成训练么? [1]
2. CL回答的问题
机器是否像人一样, 从易到难的学习表现会更好?[3]
3. AL和CL的联系
AL和CL的共同点是从调整学习样本的角度出发的, 目的却不太一样, 前者是为了更少, 后者是为了更好更快. 刚开始是先知道AL的, 后来我ref了一篇CVPR的论文, 发现根本在我的问题上不work, 也怪我眼光拙劣... 那篇解决的问题挺specific, 简单的二分类问题, 用了一个trick就是data augmentation后的patches去计算diversity, 后来我也尝试了, 发现我的问题是多分类, 看不出任何效果, 甚至不如random sampling. 期间提出了各种假设, 尝试了各种修正方法, 始终没有解决.
后来找导师聊了下, 他对这种trick是存疑的, 首先, 这样是不是真的能挑出hard samples, 其次, 他认为学习所谓的hard samples是否真的对于模型有用, 因为hard samples可能是Noisy的, 也可以能是hard but cannot be learnt的. 之后, 建议我用CL, 由此我知道了CL. CL初看来, 和AL的假设恰恰相反, AL学习的难样本, CL则认为先学简单的会更好. 后来, 又多看了几篇论文, 发现AL其实没说学习难的, 而是说学习informative的, 且repersentative的. 两者其实本质是差不多的, 因为由简入难, 对于每次训练的模型来说一定是informative, representative的, 类比于学生学习一门学问, 课程安排一定是立足于当前对于学生的水平来说的, 如果你填鸭式给小学生学高数, 这一定会confuse学生.
除此之外, AL和CL都有类似的选样本步骤(query).
CL的那篇论文 [3], 讲到两种选择策略, 一种是nosie-based 和 margin-based, 作者也做了图像识别和NLP相关的实验, 图像实验中是分类三种基本形状(三角形, 圆形, 矩形). 他用了两个数据集, 一个简单的, 一个难的, 所谓难是指图像的variation相对大, 比如对比度不高, 位置变化等.
AL, 是一门研究了很久的方向, 在一些场景下是work的, 但也是questionable的, 目前还有很多open questions. 大部分是基于uncertainty sampling. 例如先给Unlabelled的数据集样本的不确定性打分, 然后排序选出一些最uncertain的样本, 然后聚类, 找出他们的centroids, 把这些centroids的样本加入训练集(也就是所谓的pool-based)[1] .
另外一种基于Geometric(Density-based), Core-set选择离所有其他点最远的点作为主动学习样本点(直观感觉有点奇怪...). REPR选择Unlabelled数据中和所有labelled数据最像的.
也有人用ensemble的方法[3]做出state of art的结果, 而且是在公开的数据集上(mnist, cifar-10)经过验证. 简单得看了下他的方法, 是用了多个相同结构的CNN学习器, 然后用预测输出的variance作为metric.
Ref.
Settles B (2011) From theories to queries: Active learning in practice. In: Guyon I, Cawley G, Dror G, Lemaire V, Statnikov A (eds) Active Learning and Experimental Design Workshop 2010, vol 16, JMLR Proceedings, Sardinia, pp 1–18 Google Scholar
The power of ensembles for active learning in image classification, CVPR, 2018
Y. Bengio, J. Louradour, R. Collobert, J. Weston, "Curriculum Learning", Proc. Int'l Conf. Machine Learning, 2009. Access at ACM