互联网拥有海量的信息,并非所有信息都对用户有用。因此,无论是主动的搜索引擎,还是被动的推荐系统,都是一种帮助用户实现信息过滤的技术。
用户往往对偏好的商品有一定描述,在搜索引擎,以及基于内容的推荐系统中,是信息过滤最重要的数据。例如用户喜欢小说《飘》(英文为“Gone With the Wind”),想参与与《飘》相关的话题讨论,就来到了一个小说讨论网站。
小说讨论网站中有大量贴子,该如何知道哪篇贴子与《飘》最相关呢?最简单的方法,就是看关键词出现在贴子中出现的次数。
Gone With the Wind一共有四个单词,我们将这四个单词在贴子中出现的次数汇总,出现最多就最相关啦!
然而真是这样的吗?如果有一篇贴子,全文和《飘》完全不相关,但因为单词the出现了很多次,算法就会以为它和《飘》相关。可是,英文的the和中文的“的”类似,几乎任何文章都会出现很多次,本身并不带有任何意义呀。
因此,不同的关键词,重要性都不一样,我们需要找到对应的权重,越重要的关键词权重越大,越不重要的关键词权重越小。
这就是经典的TF-IDF算法,TF是词频(Term Frequency),IDF是逆文本频率指数(Inverse-Document Frequency)。关键词出现得越多,TF就越大;而如果几乎所有的商品都包含某关键词,IDF就越小。TF-IDF算法的理念就是,某关键词出现的频次越多,商品与该关键词越相关;包含这个关键词的商品越多,该关键词越不重要。具体的表达式为:
TFIDF算法获得了非常大的成功,如今几乎每个互联网产品用了TFIDF算法或其变体,这背后的原理是否挺直观呢?