TF-IDF

词频TF

TF = 某个词在文章中的出现次数
TF = 某个词在文章中的出现次数 / 文章总词数
TF = 某个词在文章中的出现次数 / 拥有最高词频的词的次数

逆文档频率IDF

语料库(corpus)模拟语言的使用环境。
IDF = log(语料库的文档总数 / (包含该词的文档总数 + 1))

TF-IDF

TF-IDF = TF * IDF

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • SEO算法之TF-IDF算法 1、TF-IDF算法概念: TF-IDF(term frequency–invers...
    老朱seo阅读 1,054评论 2 3
  • 想要提取一篇文章的 关键词 ,最直接的思维方式就是出现的越频繁的词就意味着越重要,但停用词需要除外。一篇文章中出现...
    南极有条沙丁鱼阅读 3,359评论 0 5
  • 定义 在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要...
    阡陌哥哥阅读 24,774评论 0 16
  • 用TF-IDF算法提取关键词 假设现在有一篇很长的文章,要从中提取出它的关键字,完全不人工干预,那么怎么做到呢?又...
    Shira0905阅读 3,694评论 0 5
  • 导读: 制作翻转课堂的教学视频方法多种多样,不论用何种形式拍摄,其制作过程都可概括为五个基本步骤,即:分析、整理、...
    梁芳阅读 6,198评论 0 4