信息检索复习(7)——基于向量空间模型的文本分类、Rocchio、KNN

Rocchio分类方法

  • 步骤:
    1. 先把属于一个类别的样本文档转换成文档向量(tf-idf)。
    2. 求属于一个类别的样本文档的质心向量(原型向量)。



      其中Dc表示文档集中属于类别c的子文档的个数,v(d)表示归一化之后的文档向量;上面后2个向量就是所求的质心向量。

    3. 判断新文档属于哪个类别。
    • 基于超平面的方法:
      在Rocchio分类中,两类的边界由那些到两个类质心等距的点集组成。二维平面上的一条直线在M维空间可 以推广成一个超平面这个直线的点可以表示为:


  • 欧式距离
    将d分配到类别c


  • 余弦相似度
    将d分配到类别c



k邻近分类器

  • 通过局部信息来确定类别边界
  • k的取值往往取决于经验或者分类问题本身的有关知识。k一般取奇数来减少多个主类同时存在的可能性。k=3和k=5是两组常用的取值。但是,k也常取50到100之间的更大的值。另一种选取k值的方法是,取在训练集的留存数据上效果最好的k值。



    Sk表示文档d的k个近邻文档组成的集合,如果d'属于类别c则Ic(d')=1,否则为0。最后将得分最高的类别赋予文档d。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容