NB-----naive bayes贝叶斯
需求:判断一篇文章属于哪个类型?{军事、科技、体育}
建立模型:
W = 文章 = {w1,w2,...,wn} wi=词
Y=类型={y1,y2,y3} y1=军事、y2=科技、y3=体育
需求:求w属于y1,y2,y3的概率?
Pmax={P(y1|W),P(y2|W),P(y3|W)}
贝叶斯
P(yi|W) = P(W|yi)*P(yi) / P(W)
P(yi|W) ≈ P(W|yi)
已知军事,这篇文章的概率
已知科技,这篇文章的概率
已知体育,这篇文章的概率
p(w) 最大似然估计即可
有10篇文章,3篇体育,5篇科技,2篇军事
p(W|yi)
- 这篇文章军事的词 / 军事的词
混淆矩阵
confusion table
预测1 | 预测2 | |
---|---|---|
现实1 | TP | FN |
现实2 | FP | TN |
PR曲线
y轴:Precision = TP / (TP+FP)
x轴:Recall = TP / (TP+FN)
准确率即猜1的里面是1的占比
召回率即是1的里面猜1的占比
ROC曲线
y轴:真阳率 = TP / (TP+FN)
x轴:假阳率 = FP / (FP+TN)
真阳率即真里面预测了多少真
假阳率即假里面预测了多少真
AUC曲线
- ROC曲线下的面积 y=f(x)
- y < f(x) 意味着 小于