Manacher算法
一. 要解决的问题
给定一个字符串,求出其最长回文子串。例如:
- s=“abcd”,最长回文长度为 1;
- s=“ababa”,最长回文长度为 5;
- s=“abccb”,最长回文长度为 4,即 bccb。
以上问题的传统思路大概是,遍历每一个字符,以该字符为中心向两边查找。其时间复杂度为O(n^2) ,效率很差。
1975 年,一个叫 Manacher 的人发明了一个算法,Manacher 算法(中文名:马拉车算法),该算法可以把时间复杂度提升到 O(n)
二. 前导知识
由于回文分为偶回文(比如 bccb)和奇回文(比如 bcacb),而在处理奇偶问题上会比较繁琐,所以这里我们使用一个技巧,具体做法是:在字符串首尾,及各字符间各插入一个字符(前提这个字符未出现在串里)。
举个例子:s=“abbahopxpo”,转换为s_new=“$#a#b#b#a#h#o#p#x#p#o#“(这里的字符 $ 只是为了防止越界,下面代码会有说明),如此,s 里起初有一个偶回文abba和一个奇回文opxpo,被转换为#a#b#b#a#和#o#p#x#p#o#,长度都转换成了奇数。 最大回文半径是以回文中到回文结束的长度,比如:
回文半径数组radius
回文半径数组radius是用来记录以每个位置的字符为回文中心求出的回文半径长度,如下图所示,
对于p1所指的位置radius[6]的回文半径是5,每个位置的回文半径组成的数组就是回文数组,所以#a#c#b#b#c#b#d#s#的回文半径数组为[1, 2, 1, 2, 1, 2, 5, 2, 1, 4, 1, 2, 1, 2, 1, 2, 1]。
要处理的字符串
最大回文右边界R
一个位置最右回文右边界指的是这个位置及之前的位置的回文子串,所到达的最右边的地方。比如对于字符串#a#c#b#b#c#b#d#s#,求它的每个位置的过程如下:
最开始的时候R=-1,到p=0的位置,回文就是其本身,最右回文右边界R=0;p=1时,有回文串#a#,R=2;p=2时,R=2;P=3时,R=6;p=4时,最右回文右边界还是p=3时的右边界,R=6,依次类推。
最大回文右边界的对称中心C
就是上面提到的最大回文右边界所对应的第一个到达R的回文中心点C,如下图,p=4时,R=6,C=3
举个例子:s=“abbahopxpo”,转换为s_new=“$#a#b#b#a#h#o#p#x#p#o#“(这里的字符 $ 只是为了防止越界,下面代码会有说明),如此,s 里起初有一个偶回文abba和一个奇回文opxpo,被转换为#a#b#b#a#和#o#p#x#p#o#,长度都转换成了奇数。
定义一个辅助数组int p[],其中p[i]表示以 i 为中心的最长回文的半径,例如:
可以看出,p[i] - 1正好是原字符串中最长回文串的长度。
三. Manacher算法的流程
首先大的方面分为两种情况:
第一种情况:
下一个要移动的位置在最右回文右边界R的右边。
比如在最开始时,R=-1,p的下一个移动的位置为p=0,p=0在R=-1的右边;p=0时,此时的R=0,p的下一个移动位置为p=1,也在R=0的右边。
在这种情况下,采用普遍的解法,将移动的位置为对称中心,向两边扩,同时更新回文半径数组,最右回文右边界R和最右回文右边界的对称中心C。
第二种情况:
下一个要移动的位置p1不在最右回文右边界R右边
在这种情况下又分为三种:
- cL< p’L。
p’是p以C为对称中心的对称点;
p’L是以p’为对称中心的回文子串的左边界;
cL是以C为对称中心的回文子串的左边界。 即:
这种情况下p1的回文半径就是p2的回文半径radius[p’]。
- cL>p’L。
p’是p以C为对称中心的对称点;
p’L是以p’为对称中心的回文子串的左边界;
cL是以C为对称中心的回文子串的左边界。
这种情况下p的回文半径就是p到R的距离R-p+1。
- cL=p’L
p’是p以C为对称中心的对称点;
p’L是以p’为对称中心的回文子串的左边界;
cL是以C为对称中心的回文子串的左边界。
这种情况下p1的回文半径就还要继续往外扩,但是只需要从R之后往外扩就可以了,扩了之后更新R和C。
设置两个变量,mx 和 id 。mx 代表以 id 为中心的最长回文的右边界,也就是mx = id + p[id]。
2 * id - i为 i 关于 id 的对称点,即上图的 p’ 点,而p[j]表示以 j 为中心的最长回文半径,因此我们可以利用p[j]来加快查找。
##四. 复杂度分析
从上面的分析中,可以看出,第二种情况的1,2的求某个位置的回文半径的时间复杂度是O(1),对于第一种情况和第二种情况的3,R是不断的向外扩的,不会往回退,而且寻找回文半径时,R之内的位置是不是进行判断的,所以对整个字符串而且,R的移动是从字符串的起点移动到终点,时间复杂度是O(n),所以整个manacher的时间复杂度是O(n)。 ##五. 代码实现
#include <iostream>
#include <cstring>
#include <algorithm>
using namespace std;
char s[1000];
char s_new[2000];
int p[2000];
int Init()
{
int len = strlen(s);
s_new[0] = '$';
s_new[1] = '#';
int j = 2;
for (int i = 0; i < len; i++)
{
s_new[j++] = s[i];
s_new[j++] = '#';
}
s_new[j] = '\0'; // 别忘了哦
return j; // 返回 s_new 的长度
}
int Manacher()
{
int len = Init(); // 取得新字符串长度并完成向 s_new 的转换
int max_len = -1; // 最长回文长度
int id; //id 不需要初始化,会在循环开始后进行赋值
int mx = 0;
for (int i = 1; i < len; i++)
{
if (i < mx)
p[i] = min(p[2 * id - i], mx - i); // 这一步将情况一和情况二的1,3都包含进去了
else
p[i] = 1; //对于情况2,需要接下来进行扩张判断,即下面的while循环
while (s_new[i - p[i]] == s_new[i + p[i]]) // 不需边界判断,因为左有'$',右有'\0'
p[i]++;
// 我们每走一步 i,都要和 mx 比较,我们希望 mx 尽可能的远,这样才能更有机会执行 if (i < mx)这句代码,从而提高效率
if (mx < i + p[i])
{
id = i;
mx = i + p[i];
}
max_len = max(max_len, p[i] - 1);
}
return max_len;
}
int main()
{
while (printf("请输入字符串:\n"))
{
scanf("%s", s);
printf("最长回文长度为 %d\n\n", Manacher());
}
return 0;
}
本文参考文章:
https://www.jianshu.com/p/116aa58b7d81
https://subetter.com/algorithm/manacher-algorithm.html
感谢原作者分享