Rocchio分类方法
- 步骤:
- 先把属于一个类别的样本文档转换成文档向量(tf-idf)。
-
求属于一个类别的样本文档的质心向量(原型向量)。
其中Dc表示文档集中属于类别c的子文档的个数,v(d)表示归一化之后的文档向量;上面后2个向量就是所求的质心向量。
- 判断新文档属于哪个类别。
-
基于超平面的方法:
在Rocchio分类中,两类的边界由那些到两个类质心等距的点集组成。二维平面上的一条直线在M维空间可 以推广成一个超平面这个直线的点可以表示为:
-
欧式距离
将d分配到类别c
-
余弦相似度
将d分配到类别c
k邻近分类器
- 通过局部信息来确定类别边界
-
k的取值往往取决于经验或者分类问题本身的有关知识。k一般取奇数来减少多个主类同时存在的可能性。k=3和k=5是两组常用的取值。但是,k也常取50到100之间的更大的值。另一种选取k值的方法是,取在训练集的留存数据上效果最好的k值。
Sk表示文档d的k个近邻文档组成的集合,如果d'属于类别c则Ic(d')=1,否则为0。最后将得分最高的类别赋予文档d。