数据结构五(串)

十一期间,项目比较紧,让各位久等了

一.串的定义

串:是由零个或多个字符组成的有限序列,又名叫字符串
一般记为s = "a1,a2,a3......an",其中s是串的名字,用双引号(有的书中也用单引号)括起来的字符序列是串的值.ai(1<= i <= n)可以是字母,数字或其他字符,i是该字符在串中的位置.串中的字符数目n称为串的长度*
零个字符串称为空串,它的长度为零,,可以直接用两双引号' " " '表示
序列:说明串的相邻字符之间具有前驱和后继的关系

空格串:只包含空格的串.它和空串是有区别的,空格串是有内容长度的,而且不止一个空格

空串和空格串的区别

子串与主串:串中任意个数的连续字符组成的子序列称为该串的子串,相应地,包含子串的串称为主串
子串在主串中的位置就是子串的第一个字符在主串的序号

子串和主串

二.串的比较

数字很容易比较大小.字符串的大小比较取决于他们每个字母的前后顺序和字符串的长度

字符串比较一

字符串比较二

字符串比较三

字符串比较四

字符串比较总结:

1.字符串相等
必须他们串的长度以及他们各个对应位置的字符都相等时,才算相等.即给定两个串:s = "a1, a2, a3 ......an", t = "b1, b2 , b3 ....bm",当且仅当n = m,且a1= b1,a2 = b2,a3 = b3......an = bm都满足时.我们认为s = t
2.字符串不相等
给定两个串:s = "a1, a2, a3......an", t = "b1,b2,b3......bm",当满足以下条件任意一个,s < t
1)n < m,且a1 = b1 (i = 1,2,......,n),比如图字符串比较四
2)存在某个k <= min(m, n),使得ai = bi(i = 1, 2 .......k -1),ak < bk,如字符串比较图1,2

三.串的抽象数据类型

串的逻辑结构和线性表很相似.不同之处在于串针对的是字符集,也就是串中的元素都是字符,比如"123""2010-10-10",这也只能理解为长度为3和长度为10的字符串,每个元素都是字符
线性表关注的是单个元素的操作,比如查找一个元素,插入或删除一个元素
串中更多的是查找子串位置,得到指定位置子串,替换子串等操作

ADT 串(string)
Data 
      串中元素仅由一个字符组成,相邻元素具有前驱和后继关系
Operation   
       StrAssign(T,*chars):生成一个其值等于字符串常量chars的串T
       StrCopy(T,S):若S存在,由串S赋值得串T
       ClearString(S):若串存在,将串清空
       StringEmpty(S):若串S为空,返回true,否则返回false
       StrLength(S):返回串S的元素个数,即串的长度
       StrCompare(S,T):若S > T,返回值 > 0,若S = T,返回0,若 S < T,返回值 <0
       Concat(T,S1,S2):用T返回由S1和S2连接而成的新串
       SubString(Sub,S,pos,len):串S存在,1 <= pos <= StrLength(S),且0<= len <= StrLength(s) - post +1,用Sub返回串S的第post个字符起长度为len的子串  
         Index(S,T,pos):串S和T存在,T是非空串,1 <= post <= StrLength(s).若主串S中存在和串T值相同的子串,则返回它在主串S中第post个字符之后第一次出现的位置,否则返回0
         Replace (S,T,V):串S,T,V存在,T是非空串.用V替换主串S中出现的所有与T相等的不重叠的子串
         StrInsert(S,pos,T):串S和T存在,1<= pos <= StrLength(S) + 1.在串S的第pos个字符之前插入串T
         StrDelete(S,post,len):串S存在,1<=pos <= Strlength(S) - len + 1.从串S中删除第pos个字符起长度为len的子串
    endADT

实现算法

//T为非空串,若主串S中第pos个字符之后存在与T相等的子串
//则返回第一个这样的子串在S中的位置,否则返回0
int Index (String S , String T, int pos){
      int n ,m ,i;
      String sub;
      if (pos > 0)[
            n = StrLength(S);//得到主串S的长度
            m = StrLength(T);//得到子串T的长度
            i = pos;
            while (i <= n - m + 1){
                    SubString(sub, S,i,m);//取主串第i个位置,长度与T相等的子串给sub
                    if (StrCompare (sub,T) != 0)//如果两串不相等
                            ++i;
                     else 
                              return i ; //如果两串相等返回i值
              }
          }
        return 0; //若无子串与T相等,返回0
     }

四.串的存储结构

1.串的顺序存储结构

串的顺序存储结构是用一组地址连续的存储单元来存储串中的字符序列.按照预定义的大小,为每个定义的串变量分配一个固定长度的存储单元.一般用定义长数组来定义
它规定在串值后面加一个不计入串长度的结束标记字符,比如"\0"来表示串值的终结

串的长度

串的顺序存储长度的缺点:串的长度超过数组的长度MaxSize,超出部分就不在显示

2.串的链式存储

串的链式存储结构,与线性表是相似的,结构中的每个元素数据都是一个字符,如果一个结点对应一个字符,就会存在很大的空间浪费.因此,一个结点可以存放一个字符,也可以存放多个字符,最后一个结点未被占满时,可以用"#"或其他串值字符补全

串的链式

五.朴素的模式匹配算法

子串的定位操作通常称作串的模式匹配,应该算是串中最重要的操作之一
假设我们要从下面的主串S = "goodgoogle"中,找到T="google"这个子串的位置,我们需要下面的步骤
1.从主串的第一位开始,此次与T进行匹配.S与T的前三个字母都匹配成功,但是S的第四个字母是d,T的第四个字母是g,第一位匹配失败.竖直连线表示相等,⚡️表示不等

第一位比较

2.主串S的第二位开始,主串S的首字母是o,要匹配的T首字母是g,匹配失败

第二位比较

3.主串S的第三位开始,主串S的首字母是o,要匹配的T首字母是g,匹配失败

第三位

4.主串S的第四位开始,主串S的首字母是d,要匹配的T首字母是g,匹配失败

第四位

5.主串S的第五位开始,S与T,6个字母全匹配成功,终于成功了..此处应该有掌声~👏👏👏

历经千山万水,重要找到你了

思路:

1.对主串进行大循环

2.对子串进行小循环

//主串S和子串T的长度存在S[0]和T[0]中
//返回子串T在主串S中pos个字符之后的位置,若不存在,则函数返回值为0
//T非空,1 <= pos <= StrLength(S)
int Index (String S , String T, int pos){
      int i = pos;//i用于主串中当前位置下标,若pos不为1,则从pos位置开始匹配
       int j = 1; //j用于子串T当前位置下标值
      while(i <= S[0] && j<= T[0]){//若i小于S长度且j小于T的长度时循环
            if (S[i] == T[j])//两字母相等则继续
              {
                     ++i;
                     ++j;
               }else{ //指针后退重新开始匹配
                   i = i - j + 2;//i返回到上次匹配首位的下一位
                   j = 1; //j返回到子串T的首位
                }
            }
            if (j > T[0]) 
                   return i - T[0];
             esle 
                   return 0;
 }

最好情况: 一次就成功 ,时间复杂度为O(1)
稍差一点:就想刚才例子中,第二,三,四位一样,每次都首字母就不匹配,那么对T串的循环就不必进行,比如"abcdefgoole"中,去找"goole",那么时间复杂度为O(n + m) ,其中n为主串长度,m为子串长度 ........这里始终认为是O(n -m + 1),坐等大神解释

A75441B7-6BCA-46C2-BB53-F6BCE03E94BF.jpg

最坏情况:每次不成功的匹配都发生在串T的最后一个字符.举个很极端的例子,主串S = "0000000000000000000000000000000000000000000000000001",而要匹配的子串为T ="0000000001",前者有49个"0"和1个"1"的主串,后者是9个"0"和1个"1"的子串,在匹配是.每次都将T中的字符循环到最后一位才发现:他们不匹配.这样等于T串需要在S串的前40个位置都需要判断10次,并得出不匹配的结论

2.png

直到最后41个位置,因为全部匹配相等,所以不需要再继续进行下去.如果最终没有可匹配的子串,比如T = "0000000002",到第41位置判断不匹配后同样不需要在进行对比下去了.因此最坏情况的时间复杂度为O(n - m + 1) * m

3.png

KMP模式匹配算法看的不是很理解,以后会专门补上单独的一章

屏幕快照 2016-10-11 下午1.56.54.png