文本去重

simhash

分词,hash,加权,降维,拿到simhash;计算simhash的海明距离
试用长文本去重,效率高,顺序无关

编辑距离

a变成b的最小操作次数
精确的文字比较,效率低

Jaccard系数

交集大小比并集大小
适用元素类文字比较,顺序无关

最长公共子序列

精确对比,效率低

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • simHash是google提出的用于计算海量文本相似度的算法:(1) 分词 => word(2) 单词权重 tf...
    点点渔火阅读 2,871评论 0 2
  • 链接分析 我们在最开始说过,搜索引擎在查找能够满足用户需求的网页时,主要会考虑两方面的因素,一方面是用户发出的查询...
    我偏笑_NSNirvana阅读 3,402评论 1 12
  • 事件一: 2018年12月我想了很久最后才报了一个月的普通话培训班,那时觉得年底了,工作那么忙,会不会没有时间学习...
    露露谈说阅读 189评论 0 1
  • 敬爱的李老师,智慧的马教授,亲爱的家人们,大家好,我是侯宇辰 今天是我日精进分享的第153天,每天进步一点点,距离...
    所以努力阅读 137评论 0 2
  • 文/秋无尘 01 流年日深,许多事已经模糊不清了。我们总说,如果没有遇见你,或许,日子过得有些平淡,但是宁静安好,...
    七度孤雁阅读 765评论 0 4