TF-IDF(Term frequency–Inverse Document Frequency,词频-逆向文件频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。
词频=某个单词在某篇文章中出现的次数,考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化——TF:
或者:
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。
直观的解释是, 如果一个单词在非常多的文章里面都出现, 那么它可能是一个比较通用的词汇, 对于区分某篇文章特殊语义的贡献较小, 因此对权重做一定惩罚。
假如我们有1000篇文章,
这1000篇文章一共有词汇10000个,那么我们得到的是1000*10000的矩阵,对于第1篇文章,其分词后又词汇50个,那么其TF-IDF就是1*10000的向量,这个向量是稀疏的,只有50个值不为0。