Active Learning&Curriculum Learning的思考

1. AL回答的问题

如果机器能问问题的话, 他们能用更少的样本完成训练么? [1]

2. CL回答的问题

机器是否像人一样, 从易到难的学习表现会更好?[3]

3. AL和CL的联系

AL和CL的共同点是从调整学习样本的角度出发的, 目的却不太一样, 前者是为了更少, 后者是为了更好更快. 刚开始是先知道AL的, 后来我ref了一篇CVPR的论文, 发现根本在我的问题上不work, 也怪我眼光拙劣... 那篇解决的问题挺specific, 简单的二分类问题, 用了一个trick就是data augmentation后的patches去计算diversity, 后来我也尝试了, 发现我的问题是多分类, 看不出任何效果, 甚至不如random sampling. 期间提出了各种假设, 尝试了各种修正方法, 始终没有解决.
后来找导师聊了下, 他对这种trick是存疑的, 首先, 这样是不是真的能挑出hard samples, 其次, 他认为学习所谓的hard samples是否真的对于模型有用, 因为hard samples可能是Noisy的, 也可以能是hard but cannot be learnt的. 之后, 建议我用CL, 由此我知道了CL. CL初看来, 和AL的假设恰恰相反, AL学习的难样本, CL则认为先学简单的会更好. 后来, 又多看了几篇论文, 发现AL其实没说学习难的, 而是说学习informative的, 且repersentative的. 两者其实本质是差不多的, 因为由简入难, 对于每次训练的模型来说一定是informative, representative的, 类比于学生学习一门学问, 课程安排一定是立足于当前对于学生的水平来说的, 如果你填鸭式给小学生学高数, 这一定会confuse学生.
除此之外, AL和CL都有类似的选样本步骤(query).
CL的那篇论文 [3], 讲到两种选择策略, 一种是nosie-based 和 margin-based, 作者也做了图像识别和NLP相关的实验, 图像实验中是分类三种基本形状(三角形, 圆形, 矩形). 他用了两个数据集, 一个简单的, 一个难的, 所谓难是指图像的variation相对大, 比如对比度不高, 位置变化等.
AL, 是一门研究了很久的方向, 在一些场景下是work的, 但也是questionable的, 目前还有很多open questions. 大部分是基于uncertainty sampling. 例如先给Unlabelled的数据集样本的不确定性打分, 然后排序选出一些最uncertain的样本, 然后聚类, 找出他们的centroids, 把这些centroids的样本加入训练集(也就是所谓的pool-based)[1] .
另外一种基于Geometric(Density-based), Core-set选择离所有其他点最远的点作为主动学习样本点(直观感觉有点奇怪...). REPR选择Unlabelled数据中和所有labelled数据最像的.
也有人用ensemble的方法[3]做出state of art的结果, 而且是在公开的数据集上(mnist, cifar-10)经过验证. 简单得看了下他的方法, 是用了多个相同结构的CNN学习器, 然后用预测输出的variance作为metric.

Ref.

  1. Settles B (2011) From theories to queries: Active learning in practice. In: Guyon I, Cawley G, Dror G, Lemaire V, Statnikov A (eds) Active Learning and Experimental Design Workshop 2010, vol 16, JMLR Proceedings, Sardinia, pp 1–18 Google Scholar

  2. The power of ensembles for active learning in image classification, CVPR, 2018

  3. Y. Bengio, J. Louradour, R. Collobert, J. Weston, "Curriculum Learning", Proc. Int'l Conf. Machine Learning, 2009. Access at ACM

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,686评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,668评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,160评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,736评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,847评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,043评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,129评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,872评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,318评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,645评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,777评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,470评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,126评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,861评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,095评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,589评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,687评论 2 351

推荐阅读更多精彩内容

  • 花也谢了 鸟都飞了 很久以前的夙愿终未实现 有一个伴儿还是多了牵绊 心也空了 情也倦了 一直追求的梦想终是虚无 有...
    风吹乱发丝阅读 168评论 0 2
  • 我低着头,看着手上的烟,再看看眼前这个嘀嘀咕咕的男人,我是路过打酱油的!如果不是看在这支烟的份上,我肯定揍你,我狠...
    书生有剑阅读 329评论 0 0
  • 阆苑仙葩终虚化,镜花水月玉无暇。 三生石畔姻缘定,日夜长思杜仲茶!
    云梦飞阅读 222评论 0 2
  • kidII阅读 99评论 0 0