分享工程算法在业务开发中的应用

工程算法,说白了就是leetcode上那些传统算法,常见的应用是……面试。本文分享几例在业务开发中的应用

一、搜索提示

市面上的搜索引擎都有搜索提示功能,基础的功能是前缀匹配,其他还有拼写纠错(如图,值得打成了指的,依然有推荐“值得”)、按照一些统计数据优化推荐(比如搜索量越大的排在越上面)


image.png

开发一个面向C端用户的完善的搜索提示要考虑上述很多功能细节,比较麻烦,但是在工作中,我们肯定会接手各种各样的输入框,这些输入框并没有那么关键(总不能是个输入框就按照上面搞一套搜索提示),或者是仅对公司内部人员开放的内部配置平台,给这些输入框添加只支持前缀匹配的搜索提示还是比较简单的。
那么,前缀匹配怎么做呢?

1.1. 方案A: 数据库like查询

这种方案比较直接,不细说了。缺点是数据量大的时候查库比较慢,而且如果这个输入框是个面向C端用户的输入框,那还得考虑如果流量大怎么办、如果流量不大但是被恶意访问导致流量大了怎么办。
另外还有个缺点,数据库不好做拼写纠错

1.2. 方案B: 在内存里构建字典树

另一种方案是在内存中构建一个字典树缓存,输入数据后直接通过字典树做前缀匹配,这种方案的优点是匹配更快,且不用担心流量大的情况,能做拼写纠错(下文详述)。我找了下leetcode还真有这样的面试题,感兴趣的可以尝试下。

1.2.1. 实践中的优化与细节

1.2.1.1. 注意字符集大小

如果自己实现一个R-way Trie(就是每个节点在数组里存储下一个节点)会存在一个问题:空间复杂度是O(NwR),依赖于字符集的大小R,如果只是26个英文字母还好,而如果是字符集2字节,每个节点就要开辟大小是65536的数组,太耗费空间。
因此实践中我用的是 Apache包下的Patricia Trie。Patricia Trie相对于普通的R-way Trie,一方面把只有单节点的细长分支压缩成了一个节点,另一方面其基于2进制比较,空间复杂度与字符集大小R无关(严格的说是和logR相关),其存储结构大概如图,每个节点只有两个子节点(而普通的Trie里每个节点要开R个空间用来存子节点)

image.png

1.2.1.2. 并发安全

大致看了Apache实现里的代码,没做并发安全的处理,因此自己封装了一层读写锁。

1.2.1.3. Patricia Trie做前缀匹配:有些API会遍历所有数据

用之前建议仔细看文档或源码,有些操作prefixMap("xxx").firstKey()是会遍历所有数据的,需要避免使用

1.2.2. Follow Up:内存存不下怎么办?

假如这是一场技术面试,那么到这里自然会产生下一个问题:如果数据太多,内存里存不下整个Trie该怎么办?
解决的思路是把Trie分散放在多台机器上。可以对前两个字符做一致性hash来路由机器,比如以ab开头的词都在机器1,以ac开头的词都在机器3。
当然,假如这是一场技术面试,那么随之而来又会产生新的问题:假如有数据倾斜怎么办,有访问热点怎么办?这里就不展开了,哈哈。

二、拼写纠错

搜索引擎还有个常用功能,如果拼写错了会进行纠错并提示用户,如图。


image.png

完善的拼写纠错功能往往使用基于统计的算法,我们的思路还是简单的问题简单解决,不是关键输入框就不搞那么复杂(其实是因为复杂的算法我不会,嘿嘿)这里介绍基于编辑距离的拼写纠错。

2.1. 方案A:计算两个单词的最小编辑距离

首先想到的算法是遍历字典,求输入字符串和字典里每个单词的最小编辑距离,这感觉是很经典的动态规划题目(来来来,复习下动态规划,来写下这道题
但是这么搞需要对字典里每个单词都求一次,时间复杂度太高。怎么优化呢?

2.2. 方案B:反向编辑距离

如果字典里单词太多,一个优化思路是反过来,即先从查询词生成可能的候选集,找出候选集里在词典出现的词。例如用户输入birthdai,我们发现这个词搜不到东西,那么先来找只需要做一次修改操作就能生成birthdai的词,包括*irthdai,b*rthdai,bi*thdai...birthda* 然后一个一个看他们是否在字典中出现。

2.2.1. 实践中的取舍

2.2.1.0. 使用哪种编辑距离

编辑距离问题有很多种,有的是支持增、删操作,有的是支持增删改操作,鉴于实践中经常把两个字母打错位(比如chain打成了chian),我选择的是支持增、删、改、交换操作的编辑距离。

2.2.1.1. 把数据都放到内存

全放数据库的话,做一次拼写纠错就要调几百次数据库。

2.2.1.2. 震惊!Apache的Patricia Trie不支持通配符匹配

我写代码写到一半才发现Apache的Patricia Trie不支持通配符匹配……
没办法,简单一点,用丑一点的算法。假设拼写纠错算法只支持由英文字母和下划线构成的字符串,比如用户想打birthday但是输入了birthdai,算法对每一个字符尝试替换、删除、插入、交换,替换只尝试替换为英文字母和下划线。例如尝试把第一位的b替换为acdef...,相应的字符串为airthdai,cirthdai,dirthdai...以此类推。

三、年会上的程序员:抽奖算法怎么写?

年会的时候少不了抽奖环节,抽奖算法怎么写呢?
来来来,请做题:
有50个员工参加年会,抽取一二三等奖,分别有1、2、3人中奖。
有100个员工参加年会,抽取一二三等奖和阳光普照奖,分别有1、2、3、50个员工中奖(我也不知道为啥阳光普照照不到剩下的人)
……
有20万员工,抽取5万人获得阳光普照奖。
有14亿员工,抽取1万人获得阳光普照奖。
有N个员工,抽取K个员工获得阳光普照奖。
应该怎么写才能保证抽奖公平呢?

3.1. hashmap判重呗

把中过奖的员工id存到hashmap里,每次生成一个随机数代表员工id,看看hashmap里有没有,有就重新随机,没有就说明这人中奖了。

3.2. 排序

给每个员工生成一个随机数代表他们的得分,然后找出分值排名在前K个的员工,代表中奖。

3.3. 洗牌算法

《算法导论》介绍过把数组随机打乱的洗牌算法,感兴趣可以复习一下

3.4. 蓄水池抽样

洗牌算法得把整个数组都放内存里,假如在14亿人中抽取1万人发奖(??)如果14亿人全放内存里太大了,那么可以用蓄水池抽样,内存里只需要放1万人就好了

3.5. 黑名单映射法

每次随机范围缩小,对黑名单建立映射。见
https://leetcode-cn.com/problems/random-pick-with-blacklist/solution/hei-ming-dan-zhong-de-sui-ji-shu-by-leetcode-2

3.6. 填窟窿法

https://leetcode-cn.com/problems/insert-delete-getrandom-o1-duplicates-allowed

你会用哪种算法呢?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容