TF-IDF

TF-IDF(Term frequency–Inverse Document Frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。

词频=某个单词在某篇文章中出现的次数,考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化——TF:
TF=\frac{某个单词在某篇文章中出现的次数}{该篇文章总词汇数}
或者:
TF=\frac{某个单词在某篇文章中出现的次数 }{该文章出现次数最多的词的出现次数}

IDF=log\frac{语料库文档总数}{ 包含该词的文档数+1}

TF-IDF=TF*IDF
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。

直观的解释是, 如果一个单词在非常多的文章里面都出现, 那么它可能是一个比较通用的词汇, 对于区分某篇文章特殊语义的贡献较小, 因此对权重做一定惩罚。

假如我们有1000篇文章,
这1000篇文章一共有词汇10000个,那么我们得到的是1000*10000的矩阵,对于第1篇文章,其分词后又词汇50个,那么其TF-IDF就是1*10000的向量,这个向量是稀疏的,只有50个值不为0。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容