登录注册写文章

信息检索复习（7）——基于向量空间模型的文本分类、Rocchio、KNN

信息检索复习（7）——基于向量空间模型的文本分类、Rocchio、KNN

Rocchio分类方法

步骤：
1. 先把属于一个类别的样本文档转换成文档向量（tf-idf）。
2. 求属于一个类别的样本文档的质心向量（原型向量）。
  
  其中Dc表示文档集中属于类别c的子文档的个数，v(d)表示归一化之后的文档向量；上面后2个向量就是所求的质心向量。
3. 判断新文档属于哪个类别。
- 基于超平面的方法：
  在Rocchio分类中，两类的边界由那些到两个类质心等距的点集组成。二维平面上的一条直线在M维空间可以推广成一个超平面这个直线的点可以表示为：

欧式距离
将d分配到类别c
余弦相似度
将d分配到类别c

k邻近分类器

通过局部信息来确定类别边界
k的取值往往取决于经验或者分类问题本身的有关知识。k一般取奇数来减少多个主类同时存在的可能性。k=3和k=5是两组常用的取值。但是，k也常取50到100之间的更大的值。另一种选取k值的方法是，取在训练集的留存数据上效果最好的k值。

Sk表示文档d的k个近邻文档组成的集合，如果d'属于类别c则Ic(d')=1，否则为0。最后将得分最高的类别赋予文档d。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2018-06-25
专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案变电单选GYSZ本规程...
小白兔去钓鱼阅读 10,261评论 0赞 13
浅谈机器学习基础（上）
注：题中所指的『机器学习』不包括『深度学习』。本篇文章以理论推导为主，不涉及代码实现。前些日子定下了未来三年左右...
我偏笑_NSNirvana阅读 40,488评论 12赞 145

【图像检索】【TPAMI重磅综述】 SIFT与CNN的碰撞：万字长文回顾图像检索任务十年探索历程
由于简书对latex公式支持不太友好，因此为了更好的阅读体验，你可以移步至：【TPAMI重磅综述】 SIFT与C...
keloli阅读 6,309评论 0赞 18
2018-05-24
2018-05-24 姓名：郭祥华组别：315期六项精进努力一组【日精进打卡第207】【知～学习】背诵《六...
华英雄_712d阅读 97评论 0赞 0
得到APP内容冷启动分析
一、产品简述 1.1产品基本介绍产品介绍：得到APP是逻辑思维团队出品的一款移动视听阅读的知识服务应用App。...
草木锦绣阅读 4,803评论 0赞 6

友情链接更多精彩内容

赞1赞

赞赏

手机看全文