文本分类的研究历史
文本分类最早追溯到20世纪60年代,早期主要通过知识工程,手工定义规则来分类,必须要有足够的了解对某领域,才能写出合适规则。
随着20世纪90年代,网上在线文本的涌现和机器学习的兴起,研究者重新开始研究文本分类。
1971年,Rocchio提出了简单的线性分类器,并通过用户查询中的用户反馈来修正类权重向量。Mark van Uden、Mun又给出了其他的修改权重意见。
1979年,van Rijsbergen对信息检索领域的研究做了系统的总结,关于信息检索的概念如向量空间模型和评估标准如准确率和召回率被引入文本分类。还重点讨论了信息检索的概率模型。
1992年,Lewis在博士论文《representation and learning in information retrieval》中介绍了文本分类系统实现方法的个细节,并在自己建立的数据集Reuters21578数据集做测试,后来的研究者在特征的降维和分类器的设计方面做了大量的工作。
Yiming Yang对各种特征的选择方法,包括信息增益、互信息、开方统计量等,从实验上进行了分析和比较,并在1997年对文献上报告的几乎所有的文本分类做了一次比较,用的数据集是Reuters21578和OHSUMED。
*文献——Y. Yang, J. Pedersen, A comparative study on feature election in text categorization. International conference on Machine
Y. Yang, An Evaluation of Statistical Approaches to Text Categorization. Information Retrieval, Vol.1, No.1-2 , 1999.
1995年,Vipnik基于统计理论提出了支持向量机方法。
1995年,Yoav Freund和Robert E Schapire发表了AdaBoost的论文
二.应用
相比于英文文本分类,中文文本分类的一个重要的差别在于预处理阶段:中文文本需要进行分词,不像英文文本的单词有天然的空格来区分。分词有影响力的当属中科院的汉语词法分析系统ICTCLAS。一般中文预料测试集有北京大学建立的人民日报语料库,清华大学建立的现代汉语语料库等。
一旦预处理完成后,文本分类过程就独立于语种。
3. 文本分类系统
3.1文本的预处理
机器学习算法要求将文本的单词序列转换为数值表示的一个矢量。首先我们假定每个文本是单词的无序集合,不考虑单词之间的相互位置。
1)去掉一些低频词,留在集合中会导致大部分文本样本该属性为0
2)去掉停用词,这种词不携带任何信息
3)去掉标记信息???
4)去掉单词的前后缀,主要应用在英文文本分类中,将同词根的单词映射到一个特征词属性,可以大大地减少特征词的个数。
经过预处理后,可以用特征词权重函数来度量文本中单词的属性值,常用的权重函数是TF_IDF
3.2 特征降维
如果过经过预处理后,特征矢量的维数很高,则需要尽量不损失分类信息的情况下生成一个低维的特征矢量。一种是从原有的特征词集合中挑出最有效的一些特征构成新的特征矢量,即特征选择;还有一种是将高维特征矢量映射到低维空间,即特征提取。
3.3 分类器的选择,一般有LR、KNN,朴素贝叶斯、支持向量机等