PU learning (positive unlabeled learning),称为正样本无标签学习。样本集中包含正例样本集P和无标签样本集Q
应用场景:恶意url检测,致病基因检测等。
1.限制最优化问题
限制最优化问题(Constrained Optimization Problem)也称约束优化问题。本算法的目的:当正例数据中的错误率低于1-c的情况下,最小化无标注数据中正例数据的数目。(c为常数)
如何理解?
记Y=1表示样本为正例,Y=0表示样本为反例,
记S=1表示样本已标记,S=0表示样本未标记
由该场景是已知已标记的样本肯定是正样本得到,
我们是希望得到,即未标记样本中为正例的概率
假设正样本中被选取为(即被标记)正样本的概率服从某一分布,与x的特征没有关系,记
由概率的链式法则可以得到,
目标概率:
2.问题求解方法
3.案例分析
Detecting positive and negative deceptive opinions using PU-learning
---待更新