词向量构造 - Tf-idf模型

前面我们总结过词袋模型,词袋模型将文本中所有不重复的词看作一个集合,然后对文本中的每句话进行编码。在句子中对于出现的词标记为1,未出现的词标记为0。这样我们就完成了对文本向量的编码,然后就可以调用机器学习模型来对其进行拟合。词袋模型解决了文本编码的问题,但词袋模型本身也存在着巨大的缺点。比如:词袋模型中向量只考虑词的出现频率,不考虑该词的具体含义;词袋模型构造的向量不考虑词出现的先后顺序;词袋模型构造的向量为稀疏矩阵,模型的效果非常有限。基于以上问题,Tf-idf模型出现了。

1.Tf-idf(词频-逆文档频率)模型

首先解释Tf-idf模型中的关键词。

Tf(Term frequency):词频,每个词在文章中出现的频率。

Tf = \frac {单个词} {该文章的总词数}

Idf(Inverse document frequency ):逆文档频率,语料库所有的文档/含有该词的文档数目。

Idf = log(\frac{语料库中所有的文档数目}{含有该词的文档数目})

Tf-idf = Tf * Idf

Tf-idf模型相比较于词袋模型的改进点:引入了词的重要性。

举个例子:假如有《中国陕西特色美食羊肉泡馍》这篇文章,这篇文章中可能“陕西”和“羊肉泡馍”出现的频率都很高,但是这两个词的Idf值是不同的。因为“羊肉泡馍”只出现在特定的文章中,而陕西可以出现在很多文章中,这样“羊肉泡馍”的Idf值就会很大。所以“羊肉泡馍”更能代表该文章的主题,这是Tf-idf的升级之处。

2.Tf-idf词向量实现

自己创建一段文本,然后调用sklearn库中的Tf-idf算法。

#导入工具包
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

#创建文本内容
text = ['The dog runs to a cat', 'the cat finds a fish in the basin', 'the bird is flying freely in the sky ']

#初始化Tf-idf模型并训练文本
tf_idf = TfidfVectorizer(analyzer = 'word',stop_words = 'english')
tf_matrix = tf_idf.fit_transform(text)

#查看Tf-idf模型中的关键词
tf_idf.get_feature_names()
#['basin', 'bird', 'cat', 'dog', 'finds', 'fish', 'flying', 'freely', 'runs', 'sky']

#展示Tf-idf训练后的文本格式
pd.DataFrame(data = tf_matrix.toarray(),columns = vocab)

得到的结果如图所示,每一个词都用一个数值表示,数值的大小表示其在文章中的重要程度。
[图片上传失败...(image-ae059c-1598494610636)]

3.Tf-idf文档说明

class sklearn.feature_extraction.text.TfidfVectorizer(*, 
input='content', encoding='utf-8', decode_error='strict', 
strip_accents=None, lowercase=True, preprocessor=None, tokenizer=None, 
analyzer='word', stop_words=None, token_pattern='(?u)\b\w\w+\b', 
ngram_range=(1, 1), max_df=1.0, min_df=1, max_features=None, 
vocabulary=None, binary=False, dtype=<class 'numpy.float64'>, 
norm='l2', use_idf=True, smooth_idf=True, sublinear_tf=False)

关键参数说明

  • encoding:编码方式,默认utf-8
  • lowercase:是否将文本转化为小写,默认为True
  • analyser:编码的对象,默认为word,也可以选择字符char
  • stop_words:停用词,默认为None,英文文本可以指定为'englishi',也可以自己制定停用此表
  • ngram_range:词组的范围,默认为(1,1),即一个词为一个单位。也可以自己指定如(1,2),(2,2)等
  • max_df:可以设置为范围在[0.0 1.0]的float,也可以设置为没有范围限制的int,默认为1.0。这个参数的作用是作为一个阈值,当构造语料库的关键词集的时候,如果某个词的document frequence大于max_df,这个词不会被当作关键词。如果这个参数是float,则表示词出现的次数与语料库文档数的百分比,如果是int,则表示词出现的次数。如果参数中已经给定了vocabulary,则这个参数无效
  • min_df:类似于max_df,不同之处在于如果某个词的document frequence小于min_df,则这个词不会被当作关键词
  • max_features:默认为None,可设为int,对所有关键词的term frequency进行降序排序,只取前max_features个作为关键词集

4.小结

  • Tf-idf模型,引入了词的重要程度指标,使得构造的文本向量更加准确
  • Tf-idf模型,仍然没有考虑词语的具体含义
  • 下一小结,了解词嵌入模型(word2vec),将上下文语境引入词语的向量构造中
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350