Python + 自然语言 + 分类

两点前置知识

词袋法（词袋模型，bag of words）：忽略文本中的词序、语法等信息，将文本视作词的集合，每一个词均为独立的，不依赖于其他词是否出现。这种情况下，一般是计算词出现的频率。
马尔科夫模型：如果单单照词袋法不去关心词与词的关系，则有很大问题，所以词与词的关系也开始考虑进去，但一句话中词太多，如果考虑所有词一同出现的概率，会太过复杂，于是马尔科夫模型就假定，每一个词只与前若干个词有关。这也称做N-gram模型。当假定与前一个词相关时，为Bi-gram(n=2)，假定与前两个词相关时，为Tri-gram(n=3)。
- N是否越大越好？
  - 《Language Modeling with Ngrams》使用了 Perplexity 这一指标，该指标越小表示一个语言模型的效果越好。直观上讲，n越大，依赖的词越多，信息量就越多，预测也就越准确，但是如果n太大，则会导致有些n-gram没有出现过，这是稀疏(Sparsity)问题。也就是说，当一个句子中分词的每个组合出现的几率在语料库中都为0的话，意味着整个句子的出现概率为0，而n越大，出现0概率的句子的数目就越多，最后导致大部分的句子的概率都为0，这个不合常理。所以一般n取2-3较为合理和可信。

Python包的实现

在sklearn.feature_extraction.text中存在CountVectorizer的类，实现了tokenization （词语切分）和 occurrence counting （出现频数统计），并且可以使用n-gram。

class sklearn.feature_extraction.text.CountVectorizer(
input=u'content', 
encoding=u'utf-8', 
decode_error=u'strict', 
strip_accents=None, 
lowercase=True, 
preprocessor=None, 
tokenizer=None, 
stop_words=None, 
token_pattern=u'(?u)\b\w\w+\b', 
ngram_range=(1, 1), 
analyzer=u'word', 
max_df=1.0, 
min_df=1, 
max_features=None, 
vocabulary=None, 
binary=False, 
dtype=<type 'numpy.int64'>)

参数解释

input : 输入的类型，是'file'(输入的对象为一个可迭代对象，里面的元素是带有read方法的类文件对象）, 'filename'（输入的对象为一个可迭代对象，里面的元素是需要I/O读取的文件名）还是'content'（默认值）
decode_error : {‘strict’, ‘ignore’, ‘replace’} 'strict' meaning that a UnicodeDecodeError will be raised.
tokenizer : callable or None (default) Override the string tokenization step while preserving the preprocessing and n-grams generation steps. Only applies if analyzer == 'word'.
ngram_range : tuple (min_n, max_n) 分词数量，即n-gram中的n取值范围
max_df : float in range [0.0, 1.0] or int, default=1.0 创建分词词库时，如果词频大于此值，则不会计入词库中。(比如有一些语料库特有的停用词) 如果是float，这个参数代表比例，如果是integer，这个参数代表绝对值数量。
min_df : float in range [0.0, 1.0] or int, default=1.0 这个值也被称作 cut-off 。创建分词词库时，如果词频小于此值，则不会计入词库中。如果是float，这个参数代表比例，如果是integer，这个参数代表绝对值数量。

假设一个实例化之后的CountVectorizer，名为vectorizer。

vectorizer实例方法

vectorizer.fit_transform(raw_documents)学习训练集，分析出符合条件的分词及其频率，返回一个稀疏矩阵（指定某一个位置比如【(1,2)\t1】，代表第2行里面的第3个特征，此特征出现的频数为1），每一行中每个数字代表对应feature的出现频数。这个稀疏矩阵即为当前分词库。
vectorizer.fit(raw_documents)学习训练集，分析出符合条件的分词及其频率，但不会返回fit_transform得到的那个稀疏矩阵。分词库仍然保存下来了。
vectorizer.get_feature_names() 学习训练集之后，可以获得对应列代表的feature name。数据格式为列表。
vectorizer.transform(test_documents) 将test_documents按照已经训练的分词库进行转化，变成一个表现分词出现频率的稀疏矩阵。

Python + 自然语言 + 分类

两点前置知识

Python包的实现

参数解释

vectorizer实例方法

推荐阅读更多精彩内容