TF-IDF

基于TF-IDF的特征提取技术

物品画像的特征标签包括比较直接明显的特征,如导演,演员等,也包括比较隐性的特征,如电影简介,图书摘要等。当我们需要提取的特征很那进行量化时,我么就需要考虑使用一些其他技术。如自然语言处理,信息检索等。
TF-IDF算法便是在NPL领域中比较广泛的一种算法。可以用来提取目标文件,并得到关键词用于计算对于目标文件的权重,并将这些权重组合到一起得到特征向量。
TF - 词频
IDF - 逆文档频率
TF-IDF权重 - wij=TF · IDF
结论 - TF-IDF值与词语在文档中出现的频率成正比,与该词语在整个文件集中出现的频率成反比。
Stop Words - 停用词 对文档中心思想表达没有意义的词进行过滤。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 定义 在信息检索中,tf-idf(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要...
    阡陌哥哥阅读 24,894评论 0 16
  • TF-IDF(term frequency–inverse document frequency)是一种用于信息检...
    GXLiu_28阅读 24,858评论 9 7
  • 用TF-IDF算法提取关键词 假设现在有一篇很长的文章,要从中提取出它的关键字,完全不人工干预,那么怎么做到呢?又...
    Shira0905阅读 3,724评论 0 5
  • SEO算法之TF-IDF算法 1、TF-IDF算法概念: TF-IDF(term frequency–invers...
    老朱seo阅读 1,065评论 2 3
  • 屋檐点滴更漏雨,一停一顿诉流年。 孤灯盏影浮暗夜,不偏不倚是相思。 深夜两点,写着不明的思绪。并不诗意的生活,也找...
    白白的墙阅读 192评论 3 2