PU learning

PU learning (positive unlabeled learning),称为正样本无标签学习。样本集中包含正例样本集P和无标签样本集Q
应用场景:恶意url检测,致病基因检测等。

1.限制最优化问题

限制最优化问题(Constrained Optimization Problem)也称约束优化问题。本算法的目的:当正例数据中的错误率低于1-c的情况下,最小化无标注数据中正例数据的数目。(c为常数)
如何理解?
记Y=1表示样本为正例,Y=0表示样本为反例,
记S=1表示样本已标记,S=0表示样本未标记
由该场景是已知已标记的样本肯定是正样本得到,P(Y=1|S=1)=1,P(Y=0|S=1)=0
我们是希望得到P(Y=1|S=0),即未标记样本中为正例的概率
假设正样本中被选取为(即被标记)正样本的概率服从某一分布,与x的特征没有关系,记P(S=1|Y=1)=c
由概率的链式法则可以得到,
P(Y=1) \\=\frac{P(Y=1|S=1)P(S=1)}{P(S=1|Y=1)} \\=\frac{P(S=1)}{c}
目标概率:
P(Y=1|S=0) \\=\frac{P(Y=1,S=0)}{P(S=0)} \\=\frac{P(S=0|Y=1)P(Y=1)}{1-P(S=1)} \\=\frac{(1-P(S=1|Y=1))P(S=1)}{(1-P(S=1))c} \\=\frac{1-c}{c}\frac{P(S=1)}{1-P(S=1)} \\=w

2.问题求解方法

3.案例分析

Detecting positive and negative deceptive opinions using PU-learning

---待更新

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容