理解TF - IDF

Q1: TF - IDF的全称是什么,为什么是这个名字?
全称: 词频 - 逆文档频率(term frequency - inverse document frequency)
其中:

  • 词频(term frequency) 某个词在这篇文档中,所占的频率
  • 逆文档频率(inverse document frequency) log(所有文档 / 出现这个词的文档). 注意这个值是正数,所以有一个"逆"

Q2:最终的排序机制是什么
TF - IDF = TF * IDF
得到权重,进行排序

Q3:优缺点是什么
优点 : 容易理解
缺点 : 对所有词一视同仁,一般来说,文末的词的权重更高,但是无法调整.

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容