一. 要解决的问题

给定一个字符串,求出其最长回文子串。例如:

  1. s=“abcd”,最长回文长度为 1;
  2. s=“ababa”,最长回文长度为 5;
  3. s=“abccb”,最长回文长度为 4,即 bccb。

 以上问题的传统思路大概是,遍历每一个字符,以该字符为中心向两边查找。其时间复杂度为O(n^2) ,效率很差。

 1975 年,一个叫 Manacher 的人发明了一个算法,Manacher 算法(中文名:马拉车算法),该算法可以把时间复杂度提升到 O(n)

二. 前导知识

 由于回文分为偶回文(比如 bccb)和奇回文(比如 bcacb),而在处理奇偶问题上会比较繁琐,所以这里我们使用一个技巧,具体做法是:在字符串首尾,及各字符间各插入一个字符(前提这个字符未出现在串里)。

 举个例子:s=“abbahopxpo”,转换为s_new=“$#a#b#b#a#h#o#p#x#p#o#“(这里的字符 $ 只是为了防止越界,下面代码会有说明),如此,s 里起初有一个偶回文abba和一个奇回文opxpo,被转换为#a#b#b#a#和#o#p#x#p#o#,长度都转换成了奇数。 最大回文半径是以回文中到回文结束的长度,比如:

回文半径数组radius

 回文半径数组radius是用来记录以每个位置的字符为回文中心求出的回文半径长度,如下图所示,

 对于p1所指的位置radius[6]的回文半径是5,每个位置的回文半径组成的数组就是回文数组,所以#a#c#b#b#c#b#d#s#的回文半径数组为[1, 2, 1, 2, 1, 2, 5, 2, 1, 4, 1, 2, 1, 2, 1, 2, 1]。

要处理的字符串

最大回文右边界R

 一个位置最右回文右边界指的是这个位置及之前的位置的回文子串,所到达的最右边的地方。比如对于字符串#a#c#b#b#c#b#d#s#,求它的每个位置的过程如下:

 最开始的时候R=-1,到p=0的位置,回文就是其本身,最右回文右边界R=0;p=1时,有回文串#a#,R=2;p=2时,R=2;P=3时,R=6;p=4时,最右回文右边界还是p=3时的右边界,R=6,依次类推。

最大回文右边界的对称中心C

 就是上面提到的最大回文右边界所对应的第一个到达R的回文中心点C,如下图,p=4时,R=6,C=3

 举个例子:s=“abbahopxpo”,转换为s_new=“$#a#b#b#a#h#o#p#x#p#o#“(这里的字符 $ 只是为了防止越界,下面代码会有说明),如此,s 里起初有一个偶回文abba和一个奇回文opxpo,被转换为#a#b#b#a#和#o#p#x#p#o#,长度都转换成了奇数。

定义一个辅助数组int p[],其中p[i]表示以 i 为中心的最长回文的半径,例如:

 可以看出,p[i] - 1正好是原字符串中最长回文串的长度。

三. Manacher算法的流程

首先大的方面分为两种情况:

第一种情况:

下一个要移动的位置在最右回文右边界R的右边。

比如在最开始时,R=-1,p的下一个移动的位置为p=0,p=0在R=-1的右边;p=0时,此时的R=0,p的下一个移动位置为p=1,也在R=0的右边。

在这种情况下,采用普遍的解法,将移动的位置为对称中心,向两边扩,同时更新回文半径数组,最右回文右边界R和最右回文右边界的对称中心C。

第二种情况:

下一个要移动的位置p1不在最右回文右边界R右边

在这种情况下又分为三种:

  1. cL< p’L。

p’是p以C为对称中心的对称点;

p’L是以p’为对称中心的回文子串的左边界;

cL是以C为对称中心的回文子串的左边界。 即:

这种情况下p1的回文半径就是p2的回文半径radius[p’]。

  1. cL>p’L。

p’是p以C为对称中心的对称点;

p’L是以p’为对称中心的回文子串的左边界;

cL是以C为对称中心的回文子串的左边界。

这种情况下p的回文半径就是p到R的距离R-p+1。

  1. cL=p’L

p’是p以C为对称中心的对称点;

p’L是以p’为对称中心的回文子串的左边界;

cL是以C为对称中心的回文子串的左边界。

这种情况下p1的回文半径就还要继续往外扩,但是只需要从R之后往外扩就可以了,扩了之后更新R和C。

设置两个变量,mx 和 id 。mx 代表以 id 为中心的最长回文的右边界,也就是mx = id + p[id]。

2 * id - i为 i 关于 id 的对称点,即上图的 p’ 点,而p[j]表示以 j 为中心的最长回文半径,因此我们可以利用p[j]来加快查找。

##四. 复杂度分析

从上面的分析中,可以看出,第二种情况的1,2的求某个位置的回文半径的时间复杂度是O(1),对于第一种情况和第二种情况的3,R是不断的向外扩的,不会往回退,而且寻找回文半径时,R之内的位置是不是进行判断的,所以对整个字符串而且,R的移动是从字符串的起点移动到终点,时间复杂度是O(n),所以整个manacher的时间复杂度是O(n)。 ##五. 代码实现

#include <iostream>  
#include <cstring>
#include <algorithm>  

using namespace std;

char s[1000];
char s_new[2000];
int p[2000];

int Init()
{
    int len = strlen(s);
    s_new[0] = '$';
    s_new[1] = '#';
    int j = 2;

    for (int i = 0; i < len; i++)
    {
        s_new[j++] = s[i];
        s_new[j++] = '#';
    }

    s_new[j] = '\0';  // 别忘了哦
    
    return j;  // 返回 s_new 的长度
}

int Manacher()
{
    int len = Init();  // 取得新字符串长度并完成向 s_new 的转换
    int max_len = -1;  // 最长回文长度

    int id;  //id 不需要初始化,会在循环开始后进行赋值
    int mx = 0;

    for (int i = 1; i < len; i++)
    {
        if (i < mx)
            p[i] = min(p[2 * id - i], mx - i);  // 这一步将情况一和情况二的1,3都包含进去了
        else
            p[i] = 1;  //对于情况2,需要接下来进行扩张判断,即下面的while循环

        while (s_new[i - p[i]] == s_new[i + p[i]])  // 不需边界判断,因为左有'$',右有'\0'
            p[i]++;

        // 我们每走一步 i,都要和 mx 比较,我们希望 mx 尽可能的远,这样才能更有机会执行 if (i < mx)这句代码,从而提高效率
        if (mx < i + p[i])
        {
            id = i;
            mx = i + p[i];
        }

        max_len = max(max_len, p[i] - 1);
    }

    return max_len;
}

int main()
{
    while (printf("请输入字符串:\n"))
    {
        scanf("%s", s);
        printf("最长回文长度为 %d\n\n", Manacher());
    }
    return 0;
}

本文参考文章:

https://www.jianshu.com/p/116aa58b7d81

https://subetter.com/algorithm/manacher-algorithm.html

感谢原作者分享