「TJOI2017」DNA-后缀数组

加里敦大学的生物研究所发现了决定人喜不喜欢吃藕的基因序列$S$,有这个序列的碱基序列就会表现出喜欢吃藕的性状,但是研究人员发现对碱基序列$S$,任意修改其中不超过$3$个碱基,依然能够表现出吃藕的性状。现在研究人员想知道这个基因在$DNA$链$S0$上的位置。所以你需要统计在一个表现出吃藕性状的人的$DNA$序列$S0$上,有多少个连续子串可能是该基因,即有多少个$S0$的连续子串修改小于等于三个字母能够变成$S$。

链接

Luogu P3763

题解

先把两个串拼到一起,然后处理出后缀数组,建立出RMQ的ST表。然后对于每一位都判断是否满足条件即可,即往后取三个LCP,然后判断长度关系即可。

时间复杂度O(n)。

代码

点击切换显示状态
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
#include <cstdio>
#include <algorithm>
#include <cstring>
#include <cmath>
using namespace std;

const int MAXN = 210000;

namespace SA{
int sa[MAXN],rk[MAXN],ht[MAXN],s[MAXN<<1],t[MAXN<<1];
int p[MAXN],b[MAXN],cur[MAXN];
#define pushS(x) sa[cur[s[x]]--] = x
#define pushL(x) sa[cur[s[x]]++] = x
#define inducedSort(v)\
fill_n(b,m,0),fill_n(sa,n,-1);\
for(int i=0;i<n;i++) b[s[i]]++;\
for(int j=1;j<m;j++) b[j]+=b[j-1];\
for(int j=0;j<m;j++) cur[j] = b[j]-1;\
for(int i=n1-1;~i;--i) pushS(v[i]);\
for(int j=1;j<m;j++) cur[j] = b[j-1];\
for(int i=0;i<n;i++) if(sa[i]>0 && t[sa[i]-1]) pushL(sa[i]-1);\
for(int j=0;j<m;j++) cur[j] = b[j]-1;\
for(int i=n-1;~i;--i) if(sa[i]>0 && !t[sa[i]-1]) pushS(sa[i]-1);
void sais(int n,int m,int *s,int *t,int *p){
int n1 = t[n-1] = 0,ch = rk[0] = -1,*s1 = s+n;
for(int i=n-2;~i;--i) t[i] = s[i]==s[i+1]?t[i+1]:s[i]>s[i+1];
for(int i=1;i<n;i++) rk[i] = (t[i-1]&&!t[i])?(p[n1] = i,n1++):-1;
inducedSort(p);
for(int i=0,x,y;i<n;i++)if(~(x=rk[sa[i]])){
if(ch<1||p[x+1]-p[x]!=p[y+1]-p[y]) ch++;
else for(int j=p[x],k=p[y];j<=p[x+1];j++,k++)
if((s[j]<<1|t[j]) != (s[k]<<1|t[k])){ch++;break;}
s1[y=x] = ch;
}
if(ch+1 < n1) sais(n1,ch+1,s1,t+n,p+n1);
else for(int i = 0;i<n1;i++) sa[s1[i]] = i;
for(int i = 0;i<n1;i++) s1[i] = p[sa[i]];
inducedSort(s1);
}
template <typename T>
int mapChartoInt(int n,const T *str){
int m = *max_element(str,str+n);
fill_n(rk,m+1,0);//+1!!!
for(int i = 0;i<n;i++) rk[str[i]] = 1;//=1!
for(int j = 0;j<m;j++) rk[j+1] += rk[j];
for(int i = 0;i<n;i++) s[i] = rk[str[i]]-1;
return rk[m];
}
// str[n] yange zidianxu zuixiao
template <typename T>
void suffixArray(int n,const T *str){
int m = mapChartoInt(++n,str);
sais(n,m,s,t,p);
}
void getHeight(int n){
// 这里的循环一定要到a!
for(int i = 0;i<=n;i++) rk[sa[i]] = i;
for(int i = 0,h = ht[0] = 0;i<=n;i++){
int j = sa[rk[i]-1];
while(i+h<n && j+h<n && s[i+h] == s[j+h]) h++;
if(ht[rk[i]] = h) --h;
}
}
}

int n,x,y;
char s[MAXN];

namespace ST{
int st[20][MAXN];
void build(int n,int *num){
for(int i = 1;i<=n;i++) st[0][i] = num[i];
for(int j = 1,t = 2;t<=n;j++,t<<=1)
for(int i = 1;i+(t>>1)<=n;i++)
st[j][i] = min(st[j-1][i],st[j-1][i+(t>>1)]);
}
int query(int l,int r){
int t = log2(r-l+1);
return min(st[t][l],st[t][r-(1<<t)+1]);
}
}

void init(){
scanf("%s",s);
x = strlen(s);
scanf("%s",s+x);
n = strlen(s);
y = n-x;
s[n] = 'A'-1;
SA::suffixArray(n,s);
SA::getHeight(n);
ST::build(n,SA::ht);
}

int lcp(int a,int b){
if(a == b) return n - a + 1;
a = SA::rk[a],b = SA::rk[b];
if(a > b) swap(a,b);
return ST::query(a+1,b);
}

bool judge(int p){
int cnt = 0,len = 0;
while(len < y){
len += lcp(p+len,x+len);
if(cnt >= 3 && len < y) return false;
len++,cnt++;
}
return true;
}

void solve(){
int ans = 0;
for(int i = 0;i<=x-y;i++)
if(judge(i)) ans++;
printf("%d\n",ans);
}

int main(){
int T;scanf("%d",&T);
for(int i = 1;i<=T;i++)
init(),solve();
return 0;
}