1.Idf注意事项
是全局统计特征1.数据量要大;2.分布式存在问题(不同的机器上,同样的词,idf都不同),数据量大差距会小,每天都要更新;3. 我买了一只哈士 奇, 奇怪的奇,这个词会出现idf特别大,idf的前提就是粉刺要准,分类器要一致。
倒排索引:数据库中一般是以文档 id作为索引,文档内容为记录。而倒排索引是以单词或者文档作为索引,文档id做为记录。这样方便地通过单词或者记录找到文档。
1.计算tf-idf
tf -- 词在句子中出现的权重 = 词在句子中出现的次数/词总数
idf * tf = 一个词在句子中的权重
一个词 信息量高,同时在句子中出现的次数多,就权重大!
在长篇文章中,tf可以作为词的权重,但是在问答系统中,都是短句子,每个词出现一次,是不是tf就失效了呢?
2.计算word2vec
每个词都是一个向量,如果一个词比较重要,那么它和其他词的距离比较接近。
训练word2vec不仅可以用问答预料,还可以用领域内其他预料
3.计算倒排索引
倒排索引技术可以快速从百万级的语料库中检索候选和得分,并根据分数进行截断,取topk输入给下一环节。
idf存在什么问题?有没有改进空间?
作业:自己实现idf的替代方案!
提取关键词 无论是tf还是word2vec本质上都是一个词袋模型
做一个分类模型:lstm。
只有理解原来才能活学活用