一、文本分类
如图所示,文本分类的大体流程如上:
- 文本的预处理
本文不涉及(能考虑到的会涉及,标点符号处理、停用词处理、中文分词等等) -
文本表示
如何将文本表示为计算机可以计算的数值。(这些数值应体现文档相关的一些特性,或者由于目的是应用于分类,则这些数值也应该具有不同文档间的区分性。)
主要的思想是,在一个特征空间中,针对不同的特征(作为坐标轴)对文档进行相关的表示(各个点的值),利用表示后的向量,可以计算向量间的距离(内积、余弦值等)从而对文档的相似度进行度量。
文档的向量空间表示如下图所示:
其中tj则是特征,wij为对应的点。
从上面的表述可知,文本的表示涉及两点,一个是空间中坐标轴的选取(特征的选取),再就是向量空间中的点(在对应坐标轴上的大小)-特征权重。
特征选择——选定利于文档分类的坐标轴
就是选取哪些词或者短语
选取的依据:文档频率、信息增益、卡方统计量、互信息
特征权重——对应坐标轴上的点(值的大小)
大小的依据:tf,idf tf-idf等等 - 分类器
1)朴素贝叶斯
基于DF(特征是否在文档中出现)
基于TF(特征在文档中出现的次数)
2)SVM
二、情感分类
1.依据机器学习进行分类(针对文中提到的小点子进行总结)
1)有监督的分类
加入主观句摘要,加入其中(增加了特征的维度)
2)半监督分类
针对标注较少的文本,加入了协同过滤(稍后文章分析下这种方法)
3)无监督分类
利用种子词(应该是已经有情感倾销的词语),计算文档中词语与种子词的点信息(度量词的情感倾向),然后通过词语计数,来计算文档的情感性倾向。
通过Hownet的语义分析抽取单词的情感信息。
利用LDA进行浅层的语义分析。
情感分析相关的评测涉及观点抽取和要素抽取。