Label Distribution Learning

Paper Reading Note

URL: https://arxiv.org/abs/1408.6027

TL;DR

本文提出了一种新的学习范式:label distribution learning, LDL,用来学习各个label描述一个实例的度。single-label 和 multi-label learning可以看做LDL的一种特例,区别于学习一个或多个label,LDL学习一种label的分布,这种分布表示每个label描述实例时的相对重要性。


Dataset/Algorithm/Model/Experiment Detail

Introduction

目前已有的学习范式主要有两种:

(1)每个实例有一个label,称为Single-label learning(SLL);
(2)每个实例有多个label,称为Multi-label learning(MLL)

以上这两种范式都旨在回答“which label can describe the instance?”的问题,但是都不能回答“how much does each label describe the instance?”的问题。那么LDL就可以解决以上问题。

对于一个样本 x ,称 dyx 为label y 描述该样本的度,且满足以下条件:


image
image

那么,一个样本所有可能的label对应的 dyx 可以构成类似于概率分布的形式,被称为label distribution。那么,学习由label distribution描述的实例的过程被称为label distribution learning, LDL。

LDL和其他学习范例的比较如下图:

image.png

可以看出LDL中,样本由一个label distribution标识,衡量模型性能的方法是比较模型预测的分布与实际分布间的距离或相似性。

实际上,SLL和MLL可以转换为LDL,只需要将他们的标签修改一下即可。

image.png

Formulation of LDL

image.png

假设需要学习的参数模型表示为
image

, θ 是模型参数,那么在给定训练集 S 下,LDL的目标是对于输入 xi ,找到 θ 使得模型给出的分布和实际的分布 Di 相似。

如果使用KL散度度量两个分布的相似性,那么最优的模型参数 θ 公式如下:

image.png

对于SLL,将其label distribution带入,则得到下式,实际就是最大似然估计:

image

对于MLL,将其label distribution带入,则得到:

image

LDL algorithm

作者给出了LDL 算法设计的三种策略:(1)problem transformation;(2)Algorithm Adaptation;(3)Specialized Algorithms。

  • problem transformation:就是将LDL问题转换为已有的学习问题。比如,可以将LDL转换为SLL问题,方法是:将每个样本转换为 c 个带权重的single-label样本,权重为对应的 dyx 。然后根据样本权重进行采样,得到 n∗c 个single-label样本,然后使用SLL的方法即可。

  • Algorithm Adaptation:扩展已有的方法用来解决LDL问题。例如,k-近邻算法,我们可以将一个待测试样本的k个近邻对应的label distribution做平均,作为其预测的分布。

  • Specialized Algorithms:根据LDL问题的特点,直接设计对应算法。作者介绍了两种算法,一种是使用Improved Iterative Scaling (IIS)策略的方法,被称为SA-IIS;另一种方法是对SA-IIS在优化方法上的改进,使用BFGS优化方法,被称为SA-BFGS。

SA-IIS方法将待学习的参数模型假设为最大熵模型:

image.png

其中
image

将上式带入KL散度衡量分布相似性的最优参数公式中,得到优化目标是:

image.png

对上式的优化,可以使用Improved Iterative Scaling (IIS)策略,通过迭代更新对参数 θ 的估计到 θ+Δ,其中 Δ 最大化目标函数改变量的下界
image

Δ 的每一项 δyi,k 可以通过解如下等式得到:

image.png

Experiments

作者列举了41种可以用来评价LDL的指标,并选择了6种各具代表性的指标用来之后衡量实验结果。

image

另外,作者公布了16个可以用于LDL研究的数据集,包括一个人造数据集和15个真实数据集。
在人造数据集上,6种不同方法在6种指标上的性能比较,可以看出作者提出的Specialized Algorithms性能最优。

image

其他几个数据集中挑选的4个样本上,不同算法在不同指标下的结果对比,以及模型预测出的label distribution对比。同样可以看出Specialized Algorithms性能最优,说明对于LDL问题,针对这种问题特点所设计的方法往往性能较好。

image

作者在总结部分提到,3种场景下,使用LDL可能会有用:

  • 样本的各个label间,自然就有一种描述程度度量,如文中提到的预测基因对不同疾病的表达程度的应用
  • 当样本有多个标签来源时,如有多个标注员对同一样本进行标注,通过多个标注结果来构建一个label distribution往往比使用最大投票获得的单个标签有用。
  • 当标签之间高度相关联时。

Thoughts

实际上,有很多应用可以构建为LDL问题,如年龄估计,表情识别等,因为这些任务的样本可能包含多种类别的特征,只是各个类别在该具体样本中表现的程度不同。拿年龄估计为例,一张25岁的人脸图像,其实和24岁,26岁的人脸图很像,LDL可以很好的利用这种信息。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,869评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,716评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,223评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,047评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,089评论 6 395
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,839评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,516评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,410评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,920评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,052评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,179评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,868评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,522评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,070评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,186评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,487评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,162评论 2 356

推荐阅读更多精彩内容

  • 人的心情,就像天上的云一般,早上白云朵朵,中午却乌云密布。可能人的心情和自然一样,都不可控制吧。 有时候,表面有说...
    静华2016阅读 558评论 10 10
  • 悲催的是:每个人都会死。有时候,我会看破生死。我固然很迷恋生,但是不畏死亡。唯一值得留恋的就是两个宝贝。 我没有爱...
    懒懒的阿朱阅读 92评论 0 0
  • 也许有时承诺就是简单的完成所谓答案,男人的承诺太多,也就没有所谓的答案了,满足了女生的心里空洞,却种出...
    行者葉阅读 188评论 1 2