TF-IDF 是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。某一特定文件内的高频率词语,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的 TF-IDF
(1)TF 为词频(Term Frequency),表示词 t 在文档 d 中出现的频率.
TF=该词出现字数/文章所有词出现次数的总和
(2)IDF 为逆文档频率,
IDF=语料库的文件总数/语料库存在词t的文件数
一般:一个词的TF-IDF=TF*IDF
TextRank 用于关键词提取的算法如下:
一个词(节点)的TextRank,所有指向该节点的节点贡献值的总和
链接数量,一个网页如果被越多的网页所指向,说明这个网页越重要。
链接质量,一个网页如果被一个很牛逼的网页,权值很高的网页所指向,也可以标明这个网页的权值比较高。