论文阅读笔记(二)

文章题目:基于众包的数据清洗模型研究

作者:叶晨、王宏志

来源:中国人工智能学会 学会通讯 2017年 第3期

文章主要内容

1、提出了一种将主动学习与众包平台相结合来进行数据清洗的新方法。

2、在真实数据集上验证了本文提出的模型,证明了所提方法的有效性。

学习点

1、由现有方法的问题提出新的方法来解决问题。

       本文中提到的现有概率方法、经验方法、基于规则方法等具有两个问题:(1)缺少足够的知识(2)复杂的数学计算。从而本文提出了基于众包的主动学习模型,将主动学习与众包相结合对劣质数据进行数据清洗。通过众包手段进行数据清洗保证一定的精确度,同时结合主动学习模型减少众包的开销。

2、解决本文问题的三个步骤。

    (1)首先通过初始少量训练数据集训练一个机器学习模型M。该机器学习模型可以是贝叶斯、决策树,或者支持向量机等模型。

    (2)使用该机器学习模型M对每个元组u进行确认,计算该元组的不确定度Score(u)。

    (3)根据不确定度选择一部分元组利用众包平台进行确认,再将众包的反馈结果添加到训练数据集中再训练,直到满足给定的条件。

3、主动学习模型

主动学习模型

      此模型适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。

(1)学习模型的初始化。通过初始训练集中的少量记录对学习模型中的各个分量分类器进行训练,从而得到一个初始的总体分类器模型。

(2)选择待标记记录。利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录,剩下的候选记录集继续利用训练模型标记,直到准确度满足需要为止。

(3)学习模型重训练。众包平台上的工人对学习模型挑选出来的待标记记录进行标记,工人给出候选真值集中其认为正确的答案。对于每一个给出结果的工人我们对其的可信度进行计算评估,然后将最可能的真值返回。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。

(4)结果反馈。直到分类结果已经达到一定准确率,合并众包记录集和机器学习记录集产生最终的修复结果,数据集的修复完成。

4、交互主动学习模型

        交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。

交互主动学习模型

(1)学习模型的初始化。

(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。

(3)结果反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。

(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成。

5、实验阶段

      在实验阶段,本文将测试选择最不确定的众包记录(uncertainty/entropy)方法的有效性,我们将其与随机算法(random)和投票算 法(vote)对比。在随机算法中,将随机选择记录进行众包标记;在投票算法中,选择占比最大的候选值作为真值。

      本文提出的众包记录最大不确定度选择方法在二次迭代准确率就超过了投票算法,而且准确率随着迭代次数的增加稳步上升,可以看出我们采用最大熵方法作为最不确定的众包记录对比投票算法和随机算法有很大的优势。

众包实验结果一
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,457评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,837评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,696评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,183评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,057评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,105评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,520评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,211评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,482评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,574评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,353评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,213评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,576评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,897评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,489评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,683评论 2 335

推荐阅读更多精彩内容