算法图解-备忘

看了算法图解,除了上两篇讲的快速排序和动态规划,了解到几点知识点记录下:

  1. K最近邻算法
    用于分类和回归,需要已最近的邻居作为衡量;可用来预测用户偏好,做成推荐系统,或者机器学习OCR识别文字、垃圾邮件过滤器;K最近邻算法使用的是计算用户间的距离来计算用户相似度,还有一种是余弦相似度;

  2. 反向索引
    可用于搜索引擎;原理是抽取网页的关键字,将这些内容创建一个散列表,这个散列表的键为单词,值为包含指定单词的页面。现在假设有用户搜索hi, 在这种情况下,搜索引擎需要检查哪些页面包含hi, 那去查散列表就简单多了。
    将单词映射到包含它的页面,这种数据结构被称为反向索引。

  3. 傅里叶变换
    绝妙、优雅且应用广泛的算法少之又少,傅里叶变换算是一个。Better Explained是一个杰出
    的网站,致力于以通俗易懂的语言阐释数学,它就傅里叶变换做了一个绝佳的比喻:给它一杯冰沙,它能告诉你其中包含哪些成分1。换言之,给定一首歌曲,傅里叶变换能够将其中的各种频
    率分离出来。
    傅里叶变换能够准确地指出各个音符对整个歌曲的 贡献,让你能够将不重要的音符删除。这就是MP3格式的工作原理!
    使用傅里叶变换可创建类似于Shazam这样的音乐识别软件。
    原来网易云音乐听歌识曲就是这个算法。

  1. MapReduce 分布式算法
    分布式算法非常适合用于在短时间内完成海量工作,其中的MapReduce基于两个简单的理 念:映射(map)函数和归并(reduce)函数。

  2. 布隆过滤器和HyperLogLog

布隆过滤器是一种概率型数据结构,它提供的答案有可能不对, 但很可能是正确的。为判断网页以前是否已搜集,可不使用散列表,而使用布隆过滤器。使用散 列表时,答案绝对可靠,而使用布隆过滤器时,答案却是很可能是正确的。

假设你在Google负责搜集网页,但只想搜集新出现的网页,因此需要判断网页是否搜集过。
使用布隆过滤器 就有两种情况:
可能出现错报的情况,即Google可能指出“这个网站已搜集”,但实际上并没有搜集。
不可能出现漏报的情况,即如果布隆过滤器说“这个网站未搜集”,就肯定未搜集。

HyperLogLog近似地计算集合中不同的元素数,与布隆过滤器一样,它不能给出准确的答案, 但也八九不离十,而占用的内存空间却少得多。
面临海量数据且只要求答案八九不离十时,可考虑使用概率型算法!

  1. SHA加密算法和SimHash算法

散列表有几部分构成:
(1) 散列表容量大小
(2) 散列函数
(3) 填充因子 (大于填充因子 就要考虑扩容)
(4) 冲突
(5) 冲突解决方案

SHA加密算法: 散列表局部不敏感,假设你有一个字符串并计算了其散列值。
dog ----> cd6357
此时你修改其中的一个字符,再计算其散列值,结果将截然不同:
dot ----> e392da
这样攻击者不能通过比较散列值是否类似来破解密码

Simhash:
但有时你希望散列函数是局部敏感的,那就使用Simhash算法。如果你对字符串做细微的修改,Simhash生成的散列值也只存在细微的差别。这对你通过比较散列值来判断两字符川的相似度很有用。
那它的应用场景就有:
(1) Google使用Simhash来判断网页是否已搜集。
(2) 老师可以使用Simhash来判断学生的论文是否是从网上抄的。
(3) Scribd允许用户上传文档或图书,以便与人分享,但不希望用户上传有版权的内容!这个网站可使用Simhash来检查上传的内容是否与小说《哈利.波特》类似,类似则自动拒绝。
(4) 需要检查两项内容的相似度,Simhash很有用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,313评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,369评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,916评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,333评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,425评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,481评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,491评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,268评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,719评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,004评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,179评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,832评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,510评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,153评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,402评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,045评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,071评论 2 352