思路:
-
文本的向量化表示
1.1 simhash
在线去重 抽屉原理1.2 word2vec
1.3 bagofwords(one-hot; tf-idf;) 海量 向量 相似度计算
2.1. 分而治之:将发帖数据按照用户进行切分,对每个用户的帖子计算相似度(或按照城市进行切分)
2.2 将文档进行倒排,以便分布式计算
优点:对文档进行倒排,这样可以利用分布式计算;且解决向量稀疏性的问题。
2.3 simhash + 抽屉原理 实时去重
在线去重
思考:
- 是否可以用HBASE,做分布式查重
- 是否有现成的库:https://my.oschina.net/dancing/blog/185114