Python + 自然语言 + 分类


两点前置知识

  • 词袋法(词袋模型,bag of words):忽略文本中的词序、语法等信息,将文本视作词的集合,每一个词均为独立的,不依赖于其他词是否出现。这种情况下,一般是计算词出现的频率。
  • 马尔科夫模型:如果单单照词袋法不去关心词与词的关系,则有很大问题,所以词与词的关系也开始考虑进去,但一句话中词太多,如果考虑所有词一同出现的概率,会太过复杂,于是马尔科夫模型就假定,每一个词只与前若干个词有关。这也称做N-gram模型。当假定与前一个词相关时,为Bi-gram(n=2),假定与前两个词相关时,为Tri-gram(n=3)。
    • N是否越大越好?
      • 《Language Modeling with Ngrams》使用了 Perplexity 这一指标,该指标越小表示一个语言模型的效果越好。直观上讲,n越大,依赖的词越多,信息量就越多,预测也就越准确,但是如果n太大,则会导致有些n-gram没有出现过,这是稀疏(Sparsity)问题。也就是说,当一个句子中分词的每个组合出现的几率在语料库中都为0的话,意味着整个句子的出现概率为0,而n越大,出现0概率的句子的数目就越多,最后导致大部分的句子的概率都为0,这个不合常理。所以一般n取2-3较为合理和可信。

Python包的实现

在sklearn.feature_extraction.text中存在CountVectorizer的类,实现了tokenization (词语切分)和 occurrence counting (出现频数统计),并且可以使用n-gram。

class sklearn.feature_extraction.text.CountVectorizer(
input=u'content', 
encoding=u'utf-8', 
decode_error=u'strict', 
strip_accents=None, 
lowercase=True, 
preprocessor=None, 
tokenizer=None, 
stop_words=None, 
token_pattern=u'(?u)\b\w\w+\b', 
ngram_range=(1, 1), 
analyzer=u'word', 
max_df=1.0, 
min_df=1, 
max_features=None, 
vocabulary=None, 
binary=False, 
dtype=<type 'numpy.int64'>)

参数解释

  • input : 输入的类型,是'file'(输入的对象为一个可迭代对象,里面的元素是带有read方法的类文件对象), 'filename'(输入的对象为一个可迭代对象,里面的元素是需要I/O读取的文件名)还是'content'(默认值)
  • decode_error : {‘strict’, ‘ignore’, ‘replace’} 'strict' meaning that a UnicodeDecodeError will be raised.
  • tokenizer : callable or None (default) Override the string tokenization step while preserving the preprocessing and n-grams generation steps. Only applies if analyzer == 'word'.
  • ngram_range : tuple (min_n, max_n) 分词数量,即n-gram中的n取值范围
  • max_df : float in range [0.0, 1.0] or int, default=1.0 创建分词词库时,如果词频大于此值,则不会计入词库中。(比如有一些语料库特有的停用词) 如果是float,这个参数代表比例,如果是integer,这个参数代表绝对值数量。
  • min_df : float in range [0.0, 1.0] or int, default=1.0 这个值也被称作 cut-off 。 创建分词词库时,如果词频小于此值,则不会计入词库中。如果是float,这个参数代表比例,如果是integer,这个参数代表绝对值数量。

假设一个实例化之后的CountVectorizer,名为vectorizer。

vectorizer实例方法

  • vectorizer.fit_transform(raw_documents)学习训练集,分析出符合条件的分词及其频率,返回一个稀疏矩阵(指定某一个位置比如【(1,2)\t1】,代表第2行里面的第3个特征,此特征出现的频数为1),每一行中每个数字代表对应feature的出现频数。这个稀疏矩阵即为当前分词库。
  • vectorizer.fit(raw_documents)学习训练集,分析出符合条件的分词及其频率,但不会返回fit_transform得到的那个稀疏矩阵。分词库仍然保存下来了。
  • vectorizer.get_feature_names() 学习训练集之后,可以获得对应列代表的feature name。数据格式为列表。
  • vectorizer.transform(test_documents) 将test_documents按照已经训练的分词库进行转化,变成一个表现分词出现频率的稀疏矩阵。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,240评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,328评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,182评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,121评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,135评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,093评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,013评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,854评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,295评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,513评论 2 332
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,678评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,398评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,989评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,636评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,801评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,657评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,558评论 2 352

推荐阅读更多精彩内容