登录注册写文章

海量文档的去重

海量文档的去重

思路：

文本的向量化表示
1.1 simhash
在线去重抽屉原理

1.2 word2vec
1.3 bagofwords(one-hot; tf-idf;)
海量向量相似度计算
2.1. 分而治之：将发帖数据按照用户进行切分，对每个用户的帖子计算相似度（或按照城市进行切分）
2.2 将文档进行倒排，以便分布式计算
优点：对文档进行倒排，这样可以利用分布式计算；且解决向量稀疏性的问题。
2.3 simhash + 抽屉原理实时去重
在线去重

思考：

是否可以用HBASE，做分布式查重
是否有现成的库：https://my.oschina.net/dancing/blog/185114

最后编辑于：2017.12.05 07:11:26

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

在ios开发路上查阅的资料
在此特此声明：一下所有链接均来自互联网，在此记录下我的查阅学习历程，感谢各位原创作者的无私奉献！技术一点一点积...
远航的移动开发历程阅读 11,556评论 12赞 197
Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 179,323评论 25赞 708

Java方向如何准备BAT技术面试答案(汇总版)
这个主题的内容之前分三个篇幅分享过，导致网络上传播的比较分散，所以本篇做了一个汇总，同时对部分内容及答案做了修改，...
JavaQ阅读 23,915评论 9赞 264
Hbase技术详细学习笔记
最近在逐步跟进Hbase的相关工作，由于之前对Hbase并不怎么了解，因此系统地学习了下Hbase，为了加深对Hb...
飞鸿无痕阅读 50,609评论 19赞 272
诗｜写给秋天的情书
在这个情深深的秋天我想写一封厚厚的情书寄给远方的你心里头万千牵挂思绪写满对你的回忆秋风代表我的想念一抹...
帅姐赖皮红阅读 1,851评论 3赞 9

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文