vectorizer = CountVectorizer() #构建一个计算词频(TF)的玩意儿,当然这里面不足是可以做这些
transformer = TfidfTransformer() #构建一个计算TF-IDF的玩意儿
TfidfTransformer + CountVectorizer = TfidfVectorizer
TF-IDF相关资料http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(stop_words='english', ngram_range=(1, 1),
analyzer='word', max_df=.57, binary=False,
token_pattern=r"\w+",sublinear_tf=False)
stop_words:string {'english'}, list, or None(default)如果未english,用于英语内建的停用词列表,如果未list,该列表被假定为包含停用词,列表中的所有词都将从令牌中删除, 如果None,不使用停用词。max_df可以被设置为范围[0.7, 1.0)的值,基于内部预料词频来自动检测和过滤停用词。
ngram_range(min,max):是指将text分成min,min+1,min+2,.........max 个不同的词组。比如'Python is useful'中ngram_range(1,3)之后可得到'Python' 'is' 'useful' 'Python is' 'is useful' 和'Python is useful'如果是ngram_range (1,1) 则只能得到单个单词'Python' 'is'和'useful'
analyzer:string,{'word', 'char'} or callable定义特征为词(word)或n-gram字符
max_df: float in range [0.0, 1.0] or int, optional, 1.0 by default当构建词汇表时,严格忽略高于给出阈值的文档频率的词条,语料指定的停用词。如果是浮点值,该参数代表文档的比例,整型绝对计数值,如果词汇表不为None,此参数被忽略。
binary:boolean, False by default
如果为True,所有非零计数被设置为1,这对于离散概率模型是有用的,建立二元事件模型,而不是整型计数。
token_pattern: 正则表达式显示了”token“的构成,仅当analyzer == ‘word’时才被使用。
sublinear_tf:boolean, optional应用线性缩放TF,例如,使用1+log(tf)覆盖tf