第四章 相似度分析算法——基于MinHash的相似性算法

4.3 基于MinHash的相似性算法

MinHash也称为最小哈希式独立排列局部性敏感哈希,是一种非常快速的对两个不同集合进行相似性分析的方法。该算法起初主要用于在搜索引擎中的重复网页检查,现在也应用于解决大规模聚类问题。

4.3.1 与Jaccard相似性关系

采用MinHash可以减小过程中的计算复杂度。其基本原理为有两个集合A、B,在集合A与集合B的并集中,选取的元素同时也在集合A和集合B中的概率等于Jaccard的相似度。

4.3.2 计算网页文本相似性过程

整个计算流程依然基于Jaccard相似系数,不同的是引入了哈希函数的机制。

对于集合A和集合B,选取出计算过程中哈希值最小的元素,在集合A和集合B中最小哈希值相等的概率即为集合A和集合B的相似度。通过两个哈希方法之后,转换为求新集合的Jaccard相似度。

MinHash实质也是一种降维技术,降维后的数据计算复杂度会减小很多。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  •   在目前的自然语言处理、数据挖掘以及机器学习中,相似性度量算法是一种比较常用的算法,是文本计算的基础。相似性度量...
    老羊_肖恩阅读 13,462评论 1 4
  • 专业考题类型管理运行工作负责人一般作业考题内容选项A选项B选项C选项D选项E选项F正确答案 变电单选GYSZ本规程...
    小白兔去钓鱼阅读 10,270评论 0 13
  • 一. 背景 1. 算法应用 短文本, 长文档, 网页以及新闻的相似度, 购物网站的协同过滤推荐算法 2. prob...
    陈码工阅读 2,151评论 0 0
  • 阅读目录 基本思想 局部敏感哈希LSH 文档相似度计算 局部敏感哈希(Locality Sensitive Has...
    Anaven阅读 3,720评论 2 4
  • 原文: 子曰:“学而时习之,不亦说乎?有朋自远方来,不亦乐乎?人不知而不愠,不亦君子乎?” 译:夫子说:“学习并在...
    原耕0119阅读 743评论 0 0

友情链接更多精彩内容