寻找最长重复子串,如ask not what your country can do for you ,but what you can do for your country
其中最长重复子串为空格can do for you
步骤:(利用后缀数组思想)
1、构建子串数组,每个子串是从下一个位置开始到末尾的后缀子串
2、对子串数组排序
3、对数组相邻的两个子串进行比较,用一个变量记录最长的相同长度另一个变量记录子串位置,遇到更长的就更新
4、最终得到最长子串长度和子串在数组中的位置,输出前最长个字符即可。
举例: 输入字符串 banana
1、字符串产生的后缀数组:
a[0]:banana
a[1]:anana
a[2]:nana
a[3]:ana
a[4]:na
a[5]:a
2、对后缀数组进行快速排序,以将后缀相近的(变位词)子串集中在一起
a[0]:a
a[1]:ana
a[2]:anana
a[3]:banana
a[4]:na
a[5]:nana
之后可以依次检测相邻两个后缀的公共长度并取出最大公共的前缀
时间空间复杂度分析
:空间复杂度是数组用到的为长度1到n的各个子串,总的空间为(1+n)*n/2,即空间复杂度为O(n^2)。时间消耗在这几个地方:拆分后缀子串要O(n),排序用sort要O(nlogn),最后一步遍历各子串检查要O(n),所以总共时间复杂度就是O(nlogn)级别。
另一种解法:
用两根指针p1,p2,p1从字符串0位置开始到n-1末尾,p2每次从p1+1位置开始到末尾一趟总共要n-1趟,对于p2的每一趟遍历若是遇到和p1相同的则要用一个临时变量保存原p1位置,然后两根指针同步后移比较相同,直到不同为止,那就找到了一个重复子串,记录下此时的长度和位置。然后依次增长p1进行更新更大的重复子串长度和位置,直到p1到达末尾。时间复杂度为O(n^2),空间复杂度O(1)。
#include<iostream>
#include<string>
#include<vector>
#include<algorithm>
using namespace std;
//创建子串数组
void makeStrVector(const string &str, vector<string> &v)
{
int len = str.length();
for (int i = 0; i < len; i++)
{
string substr = str.substr(i, len - i);
v.push_back(substr);
}
}
//比较两子串,返回从头开始连续相同字符个数
int strcmp_eqlen(const string &str1, const string &str2)
{
int len = 0;
while (str1[len] == str2[len])
{
len++;
}
return len;
}
int main()
{
vector<string> v_str;
string str;
//cin >> str; //此法输入字符串遇到空格就结束了
getline(cin, str); //可接受空格,遇到\n换行符结束
makeStrVector(str, v_str);
//对子串进行排序
sort(v_str.begin(), v_str.end());
//遍历数组比较前后两个子串相同字符个数
int max_len = 0, index = 0;
int length = v_str.size();
for (int i = 0; i < length-1; i++)
{
//可优化的地方,进去寻找最长子串前,可以跳过比当前max_len更短的子串。
if (v_str[i].length() <= max_len)
{
continue;
}
if (v_str[i+1].length() <= max_len)
{
i++; //虽然当前子串长度>max_len,但是后一子串长度不够,因此又可以直接跳过这个和下一个子串
continue;
}
int eqlen = strcmp_eqlen(v_str[i], v_str[i + 1]);
if (eqlen>max_len)
{
max_len = eqlen;
index = i;
}
}
cout << max_len << endl;
cout << v_str[index].substr(0, max_len) << endl;
return 0;
}