文章题目:基于众包的数据清洗模型研究
作者:叶晨、王宏志
来源:中国人工智能学会 学会通讯 2017年 第3期
文章主要内容
1、提出了一种将主动学习与众包平台相结合来进行数据清洗的新方法。
2、在真实数据集上验证了本文提出的模型,证明了所提方法的有效性。
学习点
1、由现有方法的问题提出新的方法来解决问题。
本文中提到的现有概率方法、经验方法、基于规则方法等具有两个问题:(1)缺少足够的知识(2)复杂的数学计算。从而本文提出了基于众包的主动学习模型,将主动学习与众包相结合对劣质数据进行数据清洗。通过众包手段进行数据清洗保证一定的精确度,同时结合主动学习模型减少众包的开销。
2、解决本文问题的三个步骤。
(1)首先通过初始少量训练数据集训练一个机器学习模型M。该机器学习模型可以是贝叶斯、决策树,或者支持向量机等模型。
(2)使用该机器学习模型M对每个元组u进行确认,计算该元组的不确定度Score(u)。
(3)根据不确定度选择一部分元组利用众包平台进行确认,再将众包的反馈结果添加到训练数据集中再训练,直到满足给定的条件。
3、主动学习模型
此模型适用于一些初始训练集信息量就已经非常有效的情况,还有对精度要求非常高而使训练集的记录只能是正确记录的情况。
(1)学习模型的初始化。通过初始训练集中的少量记录对学习模型中的各个分量分类器进行训练,从而得到一个初始的总体分类器模型。
(2)选择待标记记录。利用候选修复记录在各个分量分类器中的不一致分数来排序,将不一致分数最高的n个记录作为待标记记录,剩下的候选记录集继续利用训练模型标记,直到准确度满足需要为止。
(3)学习模型重训练。众包平台上的工人对学习模型挑选出来的待标记记录进行标记,工人给出候选真值集中其认为正确的答案。对于每一个给出结果的工人我们对其的可信度进行计算评估,然后将最可能的真值返回。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。
(4)结果反馈。直到分类结果已经达到一定准确率,合并众包记录集和机器学习记录集产生最终的修复结果,数据集的修复完成。
4、交互主动学习模型
交互主动学习模型是指将众包标记过的记录反馈到训练集,对学习组件进行重新训练。
(1)学习模型的初始化。
(2)选择待标记记录。对每个候选修复记录,每个分量分类器都给出其预测结果,最后根据各个分量分类器的判决结果选择信息价值最大的记录进行修复。
(3)结果反馈和学习模型重训练。在这个阶段,众包平台上的工人对学习模型挑选出来的待标记记录进行标记,收集众包平台的结果,通过优化算法得到已标记记录。学习模型重新训练,去除掉那些已经得到标记的记录,在剩下的记录产生待标记记录集合。
(4)循环训练。重复阶段1~3,直到已经达到一定准确率Q,则数据集的修复完成。
5、实验阶段
在实验阶段,本文将测试选择最不确定的众包记录(uncertainty/entropy)方法的有效性,我们将其与随机算法(random)和投票算 法(vote)对比。在随机算法中,将随机选择记录进行众包标记;在投票算法中,选择占比最大的候选值作为真值。
本文提出的众包记录最大不确定度选择方法在二次迭代准确率就超过了投票算法,而且准确率随着迭代次数的增加稳步上升,可以看出我们采用最大熵方法作为最不确定的众包记录对比投票算法和随机算法有很大的优势。