哈希表
1. 模拟散列表
把一大堆整数,范围很大零散的,映射为在某一范围的
例题:840. 模拟散列表
维护一个集合,支持如下几种操作:
- “I x”,插入一个数x;
- “Q x”,询问数x是否在集合中出现过;
现在要进行N次操作,对于每个询问操作输出对应的结果。
输入格式
第一行包含整数N,表示操作数量。
接下来N行,每行包含一个操作指令,操作指令为”I x”,”Q x”中的一种。
输出格式
对于每个询问指令“Q x”,输出一个询问结果,如果x在集合中出现过,则输出“Yes”,否则输出“No”。
每个结果占一行。
数据范围
1≤N≤10^5
−109≤*x*≤109
输入样例:
5
I 1
I 2
I 3
Q 2
Q 5
输出样例:
Yes
No
1.1 拉链法散列表
思路:和图的临界表存储类似,详见之前写的文章:树和图的深度优先搜索(应用:树的重心)
用一维数组存储哈希值,对于大范围的数,每次模上一个数p,然后映射到数组下标,一般p取大于n的第一个质数,这样冲突最小
x ==> h[x % p] ,h存放的是每个拉链的指针
平均下,每条链表很短,一般是O(1)算法
模板
int h[N], e[N], ne[N], idx;
// 向哈希表中插入一个数
void insert(int x)
{
int k = (x % N + N) % N;
e[idx] = x;
ne[idx] = h[k];
h[k] = idx ++ ;
}
// 在哈希表中查询某个数是否存在
bool find(int x)
{
int k = (x % N + N) % N;
for (int i = h[k]; i != -1; i = ne[i])
if (e[i] == x)
return true;
return false;
}
- 模拟散列表
#include <iostream>
#include <cstring>
using namespace std;
int n,x;
const int N = 100003;
int h[N],e[N],ne[N],idx;
void insert(int x);
bool find(int x);
int main(){
cin>>n;
memset(h,-1,sizeof h);
while(n--){
char op[2];
scanf("%s%d",op,&x);
if(*op == 'I')
insert(x);
else{
if(find(x))
printf("Yes\n");
else
printf("No\n");
}
}
return 0;
}
void insert(int x){
int k = (x % N + N) % N;
e[idx] = x;
ne[idx] = h[k];
h[k] = idx++;
}
bool find(int x){
int k = (x % N + N) % N;
for(int i = h[k];i != -1;i = ne[i])
if(e[i] == x)
return true;
return false;
}
1.2 开放寻址法
思路:只开一维数组(一般数组大小为第一个大于2n 的素数*),插入时有空位就插,没空位就找下一个空位,一直到找到为止,查询也是如果当前位置空了就没有该元素,否则就判断该元素是不是,不是就接着往前循环找,知道找到第一个空位结束(注意,由于数组够大,所以一定有空位)
#include <iostream>
#include <cstring>
using namespace std;
int n,x;
const int N = 200003;
const int null = 0x3f3f3f3f;
int h[N];
int find(int x);
int main(){
cin>>n;
memset(h,0x3f,sizeof h);
while(n--){
char op[2];
scanf("%s%d",op,&x);
int t = find(x);
if(*op == 'I'){
h[t] = x;
}
else{
if(h[t] != null)
printf("Yes\n");
else
printf("No\n");
}
}
return 0;
}
//如果有这个数就返回这个数的下标,没有就返回下一个空位
int find(int x){
int k = (x % N + N) % N;
while(h[k] != null && h[k] != x){
k++;
if(k == N)
k = 0;
}
return k;
}
总结:刚看了下,两算法的时间复杂度一样的,都是O(n)的,不过我更喜欢第一个拉链法。然后刚测了下unordered_set和unordered_map,发现还是上面两个快
2. 字符串哈希
例题:841. 字符串哈希
给定一个长度为n的字符串,再给定m个询问,每个询问包含四个整数 l1,r1,l2,r2,请你判断[l1,r1]和[l2,r2]这两个区间所包含的字符串子串是否完全相同。
字符串中只包含大小写英文字母和数字。
输入格式
第一行包含整数n和m,表示字符串长度和询问次数。
第二行包含一个长度为n的字符串,字符串中只包含大小写英文字母和数字。
接下来m行,每行包含四个整数l1,r1,l2,r2,表示一次询问所涉及的两个区间。
注意,字符串的位置从1开始编号。
输出格式
对于每个询问输出一个结果,如果两个字符串子串完全相同则输出“Yes”,否则输出“No”。每个结果占一行。
数据范围
1≤n,m≤10^5
输入样例:
8 3
aabbaabb
1 3 5 7
1 3 6 8
1 2 1 2
输出样例:
Yes
No
Yes
核心思想:将字符串看成P进制数,P的经验值是131或13331,取这两个值的冲突概率低
小技巧:取模的数用2^64,这样直接用unsigned long long存储,溢出的结果就是取模的结果
具体点,就是把一个字符串如”ABC”映射成一个p进制的数字
“ABC” –> p^2+A + p^1+B + p^0+C = 哈希值, 一般p取131或13331
"ABCDEFGHI"
123456789 (下标)
L R
字符串"A"的 哈希值为 p^0+A
字符串"AB" 哈希值为 p^1+A + p^0+B
字符串"ABC" 哈希值为 p^2+A + p^1+B + C
字符串[1,L-1]的哈希值为 p^3+A + p^2+B + p^1+C + p^0+D
字符串[1,R] 的哈希值为 p^8+A + p^7+B + ... + P^0+I
h[r] - h[l - 1] * p[r - l + 1]
注:此处看的别人的题解才看懂的:https://www.acwing.com/solution/content/3613/
代码:
#include <iostream>
#include <algorithm>
using namespace std;
typedef unsigned long long ULL;
const int N = 100010, P = 131;
int n, m;
char str[N];
ULL h[N], p[N];
ULL get(int l, int r)
{
return h[r] - h[l - 1] * p[r - l + 1];
}
int main()
{
scanf("%d%d", &n, &m);
scanf("%s", str + 1);
p[0] = 1;
for (int i = 1; i <= n; i ++ )
{
h[i] = h[i - 1] * P + str[i];
p[i] = p[i - 1] * P;
}
while (m -- )
{
int l1, r1, l2, r2;
scanf("%d%d%d%d", &l1, &r1, &l2, &r2);
if (get(l1, r1) == get(l2, r2)) puts("Yes");
else puts("No");
}
return 0;
}
总结:今天用stl中的string中的sunstr()方法试了试,发现效率确实没这个快