无论什么东西,最好的只有一种------古龙
在目前能看到的文本分类技术中,最好的毋庸置疑就是支持向量机------SVM。
但是在我初次接触分类技术时,不断的接触着算法原理,分词,向量化,tf-idf等技术基础,随后就是sklearn这样的超大功能技术包,sklearn有的时候就有一种大材小用的感觉了。
于是在一次机缘巧合中,我遇到了tgrocery,随后就有一种相见恨晚的感觉。那么这个怎么用,有什么用呢?
part.0 为啥用它
- 引入 结巴分词 作为内置的默认分词器
- 精简LibShortText的代码,去掉Analyzer和参数自定义模块,修复bug,改善PEP8
- 训练和测试的文本都支持列表传入
part.1 包的安装
我们可以用pip简单的进行包的安装
pip install tgrocery
让文本分类变得简单!
GitHub传送门 —> TextGrocery
part.2 使用示例
2.1 引用和变量
import os
import random
from tgrocery import Grocery
#新建一个模型
grocery = Grocery( 'sample' )
#在这里我们用的经济类和政治类
path_en='../After/En'
path_peo='../After/new_people'
train_src=[]
test_src=[]
test_src_g=[]
2.2 随机的训练集和测试集划分函数
#随机选取列表长度的二分之一个数据量
def list_cut(list):
list_len=len(list)
slist=random.sample(list,list_len/2)
return slist
#两个完全不相同的列表相加,或者包含关系的列表相减
def list_sub(list1,list2):
slist=[]
for a in list1:
if a not in list2:
slist.append(a)
return slist
2.3 从经济文件夹和政治文件夹中读取文章的标题
#读取文件夹的文件名,并随机分为训练集和测试集
enlist=os.listdir(path_en)
enlist_train=list_cut(enlist)
enlist_test=list_sub(enlist,enlist_train)
peolist=os.listdir(path_peo)
peolist_train=list_cut(peolist)
peolist_test=list_sub(peolist,peolist_train)
# 为训练集添加所属类别,以及标题名称
for path_e in enlist_train:
train_src.append(("en",path_e))
for path_p in peolist_train:
train_src.append(("peo",path_p))
2.4 开始分类,以及准确率的计算
#将剩余的文件进行归类整理,我们进行测试的数据分别从政事儿和财新网所以分别归类为经济类和政治类,test_src存有训练机,而test_str_g是为了计算其准确率
for text in peolist_test:
test_src.append(text)
test_src_g.append(("peo",text))
for text in enlist_test:
test_src.append(text)
test_src_g.append(("en",text))
grocery.train(train_src)
#保存模型
grocery.save()
#加载模型
new_grocery=Grocery('sample')
new_grocery.load()
#对测试集的标题逐个预测
for textsrc in test_src:
print str(new_grocery.predict(textsrc))+" "+textsrc
#测试准确率
print new_grocery.test(test_src_g)
part.5简单总结
这个神奇的包,让我们处理一些类似于标题的短文本的分类问题变得简单。
相对与sklearn的svm和nb,这个在进行分类的用时更加迅速。