字符串匹配算法

一、概念

查找模式串在文本串中的位置的方法

模式串(pattern),是一个长度为m的字符串,如 'acc'

文本串(text),是一个长度为n的字符串,如'fsfffgahacjjacckkrreee'

二、变量定义

pattern:'ababaccta'

text: 'abacccababcababacctaiiiuuuuutttt'

n:pattern(模式串)长度

m:text(文本串)长度

三、算法

1、朴素算法(Naive Algorithm)

原理:即穷举法、枚举法

时间复杂度:O((n-m+1)*m) *最大计算量

2、KMP(Knuth-Morris-Pratt )

原理:模式串预处理生成PMT,找出模式串中前n位的子串中的前缀字串与后缀子串的交集中 的最长子串长度。

预处理

P(char) a b a b a c c t a
M(index) 0 1 2 3 4 5 6 7 8
T(value) 0 0 1 2 3 0 0 0 1

时间复杂度:O((n-m+1)m) - O((n-m+1)(m-1)) *后者为最大可节省的运行次数

3、BM(Boyer-Moore)

原理:利用坏字符、以及好后缀规则倒序匹配字符串的算法

坏字符:模式串中匹配到第i位与文本串中的字符不相等时,文本串中的该字符称为坏字符,通过直接检索该坏字符在模式串剩余的子串中的位置,快速移动模式串

好后缀:已经匹配的j个字符称为好后缀,通过查找该好后缀在模式串的其它位置,快速移动字符串

预处理:可以提前生成好后缀数组,减少好后缀匹配的重复工作,坏字符预处理也可减少重复工作,但会极大增加空间复杂度。

四、代码:

   
class StrMatch{
   constructor(opts){

   }
   normal(pattern,text){ //正序匹配
       let index = -1
       let current = 0
       while (index === -1 && current<text.length-pattern.length){
           for(let i =0;i<pattern.length;i++){
               index = current
               if(text[current+i] !== pattern[i]){
                   current++
                   index = -1
                   break
               }
           }
       }
       return index   
   }
   reNormal(pattern,text){ //倒序匹配
       let index = -1
       let current = 0
       while (index === -1 && current<text.length-pattern.length){
           for(let i =pattern.length-1;i>=0;i--){
               index = current
               if(text[current+i] !== pattern[i]){
                   current++
                   index = -1
                   break
               }
           }
       }
       return index   
   }
   kpm(pattern,text){
       const ptm = this.preCreantPtm(pattern)
       let index = -1
       let current = 0
       while (index === -1 && current<text.length-pattern.length){
           for(let i =0;i<pattern.length;i++){
               index = current
               if(text[current+i] !== pattern[i]){
                   current+=ptm[i]
                   index = -1
                   break
               }
           }
       }
       return index

   }
   bm(pattern,text){
       let index = -1
       let current = 0
       let bg= this.preCreateBg(pattern)
       let gs = this.preCreatGs(pattern)
       while (index === -1 && current<text.length-pattern.length){
           for(let i =pattern.length-1;i>=0;i--){
               index = current
               if(text[current+i] !== pattern[i]){
                   //current+= gs[i]
                   //current+= bg[i][text[current+i].charCodeAt()]
                   current += bg[i][text[current+i].charCodeAt()]>=gs[i]?bg[i][text[current+i].charCodeAt()]:gs[i];
                   index = -1
                   break
               }
           }
       }
       return index  
   }
   preCreantPtm(pattern){
       const ptmArr = [0]
       for( let i = 1;i<pattern.length;i++){
           let max = i,val=0
           while(val<=0&&max>0){
               for(let j = 0;j<max;j++){
                   val = max
                   if(pattern[j] !== pattern[max-j]){
                       val = 0
                       max--
                       break
                   }
               }
           }
           ptmArr[i] = val
       }
       ptmArr.map((item,index)=>{
           ptmArr[index] = index+1 - item
       })
       return ptmArr
   }
   preCreatGs(pattern){
       //aab
       const gs = []
       const max = pattern.length
       for(var i =0;i<max-1;i++){
           let min = 1
           let val = i+1
           while(min<=i&&val==i+1){
               for(var j =0;j<max-i;j++){
                   val = min
                   if(pattern[max-1-j] !== pattern[max-1-j-min]){
                       val = i+1
                       min++
                       break
                   }
                   
               }
           }
           gs[i] = val
       }
       gs[max-1] = 1
       return gs
   }
   preCreateBg(pattern){
       const bg = new Array(pattern.length)
       for( var i =0 ;i<pattern.length;i++){
           const bbg = new Array(256).fill(i+1)
           for(var j=0;j<i;j++){
               const code = pattern[j].charCodeAt()
               bbg[code] = i-j
           }
           bg[i] = bbg
       }
       return bg
   }
   getMinBg(pattern,index){
      
   }
}
const _indexOf = new StrMatch()
export default _indexOf

五、总结

字符串匹配核心就是如何快速移动模式串,通过预处理模式串可大大节省运算次数,模式串的预处理方法可多项结合运用,例如bm方法,亦可在kmp中引入坏字符预处理。预处理势必会增加空间复杂度,尤其是坏字符预处理,对于模式串长度过长的字符串可增加中间函数,排除二维数组中的空选项。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355

推荐阅读更多精彩内容