sklearn.feature_extraction.text 中的 TfidfVectorizer 类简介
- TF-IDF 是一个统计方法,用来评估某个词语对于一个文件集或文档库中的其中一份文件的重要程度。其中:
TF(词频):单词在文档中出现的次数,认为单词的重要性和在文档中出现的次数成正比。
IDF(逆向文档频率):指单词在文档中的区分度,他认为一个单词出现在的文档数越少,就越能通过这个单词把该文档和其他文档区分开,IDF越大就代表该单词的区分度越大。
优点 是能过滤掉一些常见的却无关紧要本的词语,同时保留影响整个文本的重要字词。 - TF-IDF的计算目的
倾向找到TF和IDF取值都高的单词作为区分,即这个单词在一个文档中出现的次数多,同时有很少出现在其他文档中,这样的词适合做分类。 - 计算方法:image.png
image.png
词频(TF),逆文档频率(IDF),将这两者相乘,就是一个TF-IDF值,某个词对文档的重要性越高,它的TF-IDF值就越大。所以,排在最前面的几个词,就是文档的关键词。 - TfidfVectorizer(encoding, ngram_range, stop_words, lowercase, max_df=0.5, min_df, vocabulary, use_idf, smooth_idf)
参数含义:
encoding:编码格式,默认 utf-8;
ngram_range:元组形式tuple(min_n, max_n), 例如(1,2),表示得到的特征可以由1个或者2个连续的部分构成。
stop_words:停用词,可选'string',list,‘default’;可以列表导入自己的停用词;
lowercase:将英文全部小写,默认True;
max_df:float,int,range[0.0, 1.0],默认 1.0,意思是词出现在文档中的最大次数,如果大于该次数,则会从特征中删除;
min_df:float,int,range[0.0, 1.0],默认 1.0,下阀值,表示该特征出现的文档数小于该值则会被删除。
vocabulary:Mapping(映射) or iterable(可迭代的), optional(可选择的),可以用字典,例如{"华为":0, "小米":1,"ov":2},其中键值keys表示要关注的词/句子等特征,values值表示该值在特征矩阵中的索引;用于传入需要重点关注的词/句子等特征。不为空None时,max_df 和 min_df参数会失效。
use_idf:是否使用idf(逆文档词频方法),默认True;
smooth_idf:表示在计算idf时,防止出现分母为0的情况,会在公式上加1。 - 代码示例:
from sklearn.feature_extraction.text import TfidfVectorizer
train_decument = ['The flowers are beautiful.', 'The name of these flowers is rose, they are very beautiful.', 'Rose is beautiful', 'Are you like these flowers?']
test_decument = ['The flowers are mine.']
#利用函数获取文档的TF-IDF值
print('计算TF-IDF权重')
tf = TfidfVectorizer()
X_train = tf.fit_transform(train_decument)
X_test = tf.transform(test_decument)
#观察各个值
#(1)统计词列表
word_list = tf.get_feature_names() #所有统计的词
print('统计词列表')
print(word_list)
#(2)统计词字典形式
print('统计词字典形式')
print(tf.fit(test_decument).vocabulary_)
#(3)TF-IDF权重
weight_train = X_train.toarray()
weight_test = X_test.toarray()
print('train TF-IDF权重值')
print(weight_train)
print('test TF-IDF权重值')
print(weight_test)
#(4)查看逆文档率(IDF)
print('train idf')
print(tf.fit(train_decument).idf_)
print('test idf')
print(tf.fit(test_decument).idf_)
结果:image.png