海量文档的去重

思路:

  1. 文本的向量化表示
    1.1 simhash
    在线去重 抽屉原理

    1.2 word2vec
    1.3 bagofwords(one-hot; tf-idf;)

  2. 海量 向量 相似度计算
    2.1. 分而治之:将发帖数据按照用户进行切分,对每个用户的帖子计算相似度(或按照城市进行切分)
    2.2 将文档进行倒排,以便分布式计算
    优点:对文档进行倒排,这样可以利用分布式计算;且解决向量稀疏性的问题。
    2.3 simhash + 抽屉原理 实时去重
    在线去重

思考:

  1. 是否可以用HBASE,做分布式查重
  2. 是否有现成的库:https://my.oschina.net/dancing/blog/185114
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容