剑指offer - 数组中重复的数字

找出数组中重复的数字

在一个长度为n的数组里的所有数字都在0~n-1的范围内。数组中某些数字是重复的,但不知道有几个数字重复了,也不知道每个数字重复了几次。请找出数组中任意一个重复的数字,例如,如果输入长度为7的数组{2,3,1,0,2,5,3},那么对应的输出是重复的数字2或者3

思路1:

解决这个问题的一个简单的方法是先把输入的数组排序。从排序的数组中找出重复的数字是一件很容易的事情,只需要从头到尾扫描排序后的数组就可以了。排序一个长度为n的数组需要O(nlogn)的时间

思路2:

还可以利用哈希表来解决这个问题。从头到尾顺序扫描数组的每个数字,每扫描到一个数字时候,都可以用O(1)的时间来判断哈希表里是否已经包含了该数字。如果哈希表里还没有这个数字,就把它加入哈希表,如果哈希表里已经存在该数字,就找到一个重复的数字。这个算法的时间复杂度是O(n),但它提高时间效率是以一个大小为O(n)的哈希表为代价的。

思路3:

注意到数组中的数字都在0~n-1的范围内。如果这个数组中没有重复的数字,那么当数组排序之后数字i将出现在下标为i的位置,由于数组中有重复的数字,有些位置可能存在多个数字,同时有些位置可能没有数字

现在重排这个数组。从头到尾依次扫描这个数组中的每个数字。当扫描到下标为i的数字时,首先比较这个数字(用m表示)是不是等于i。如果是,则接着扫描下一个数字;如果不是,则再拿它和第m各数字进行比较。

如果它和第m个数字相等,就找到了一个重复的数字(该数字在下标为i和m的位置都出现了);如果它和第m个数字不相等,就把第i个数字和第m个数字交换,把m放到属于它的位置。

接下来再重复这个比较、交换的过程,直到我们发现一个重复的数字

具体例子分析

以数组{2,3,1,0,2,5,3}为例来分析找到重复数字的步骤。数组的第0个数字(从0开始计数,和数组的下标保持一致)是2,与它的下标不相等,于是把它和下标为2的数字1交换。交换之后的数组是{1,3,2,0,2,5,3}。

此时第0个数字是1,仍然与它的下标不相等,继续把它和下标为1的数字3交换,得到数组{3,1,2,0,2,5,3}。接下来继续交换第0个数字3和第3个数字0,得到数组{0,1,2,3,2,5,3}。

此时第0个数字的数值为0,接着扫描下一个数字。在接下来的几个数字中,下标为1、2、3的3个数分别为1、2、3,它们的下标和数值都相等,因此不需要执行任何操作。

接下来扫描到下标为4的数字2,由于它的数值与它的下标不相等,再比较它和下标为2的数字,注意到此时数组中下标为2的数字也是2,也就是数字2在下标为2和下标为4的两个位置都出现了,因此找到一个重复的数字。

实现如下

//nullptr是C++11语言标准用来表示空指针的常量值,可以指派给任意类型的指针变量
bool duplicate(int numbers[], int length, int *duplication)
{
    if (numbers == nullptr || length == 0) // 数组长度为0
    {
        return false;
    }
    for (int i = 0; i < length; i++) {
        if (numbers[i] < 0 || numbers[i] > length - 1) // 保证输入的内容是有效的,负数和超过最大值的内容存在,即找不到
            return false;
    }
    for (int i = 0; i < length; i++) {
        while (numbers[i] != i) { // 如果对应的值和下标相等,那么继续下一个值的判断
            if (numbers[i] == numbers[numbers[i]]) // 如果当前下标值与对应位置下标的值相等,则找到了重复的数字
            {
                *duplication = numbers[i];
                return true;
            }
            // 不相等,交换位置的值,并重新开始比较
            int temp = numbers[i];
            numbers[i] = numbers[temp];
            numbers[temp] = temp;
        }
    }
    return  false;
}

上述代码中,找到的重复数字通过参数duplication传给函数的调用者,而函数的返回值表示数组中是否有重复数字。当输入的数组中包含重复数字时,返回true,否则返回false

代码中尽管有一个两重循环,但每个数字最多交换两次就能找到属于它自己的位置,因此总的时间复杂度是O(n)。另外,所有的操作步骤都是在输入数组上进行的,不需要额外的分配空间,因此空间复杂度为O(1)

完整代码

#include <iostream>
using namespace std;

bool duplicate(int numbers[], int length, int *duplication)
{
    if (numbers == nullptr || length == 0) // 数组长度为0
    {
        return false;
    }
    for (int i = 0; i < length; i++) {
        if (numbers[i] < 0 || numbers[i] > length - 1) // 保证输入的内容是有效的,负数和超过最大值的内容存在,即找不到
            return false;
    }
    for (int i = 0; i < length; i++) {
        while (numbers[i] != i) { // 如果对应的值和下标相等,那么继续下一个值的判断
            if (numbers[i] == numbers[numbers[i]]) // 如果当前下标值与对应位置下标的值相等,则找到了重复的数字
            {
                *duplication = numbers[i];
                return true;
            }
            // 不相等,交换位置的值,并重新开始比较
            int temp = numbers[i];
            numbers[i] = numbers[temp];
            numbers[temp] = temp;
        }
    }
    return  false;
}

// 测试相关代码
// 判断数组中是否包含对应的数字
bool contains(int array[], int length, int number)
{
    for(int i = 0; i < length; ++i)
    {
        if(array[i] == number)
            return true;
    }

    return false;
}

// 测试函数
void test(char* testName, int numbers[], int lengthNumbers, int expected[], int expectedExpected, bool validArgument)
{
    printf("%s begins: ", testName);

    int duplication;
    bool validInput = duplicate(numbers, lengthNumbers, &duplication);

    if(validArgument == validInput)
    {
        if(validArgument) // 参数是有效的
        {
            if(contains(expected, expectedExpected, duplication)) // 是否和预期结果一样
                printf("Passed.\n");
            else
                printf("FAILED.\n");
        }
        else
            printf("Passed.\n");
    }
    else
        printf("FAILED.\n");
}

void test1()
{
    int numbers[] = { 2, 1, 3, 1, 4 };
    int duplications[] = { 1 };
    test("Test1", numbers, sizeof(numbers) / sizeof(int), duplications, sizeof(duplications) / sizeof(int), true);
}

void test2()
{
    int numbers[] = { 2, 4, 3, 1, 4 };
    int duplications[] = { 4 };
    test("Test2", numbers, sizeof(numbers) / sizeof(int), duplications, sizeof(duplications) / sizeof(int), true);
}

void test3()
{
    int numbers[] = { 2, 4, 2, 1, 4 };
    int duplications[] = { 2, 4 };
    test("Test3", numbers, sizeof(numbers) / sizeof(int), duplications, sizeof(duplications) / sizeof(int), true);
}

void test4()
{
    int numbers[] = { 2, 1, 3, 0, 4 };
    int duplications[] = { -1 }; // not in use in the test function
    test("Test4", numbers, sizeof(numbers) / sizeof(int), duplications, sizeof(duplications) / sizeof(int), false);
}

void test5()
{
    int numbers[] = { 2, 1, 3, 5, 4 };
    int duplications[] = { -1 }; // not in use in the test function
    test("Test5", numbers, sizeof(numbers) / sizeof(int), duplications, sizeof(duplications) / sizeof(int), false);
}

void test6()
{
    int* numbers = nullptr;
    int duplications[] = { -1 }; // not in use in the test function
    test("Test6", numbers, 0, duplications, sizeof(duplications) / sizeof(int), false);
}

int main(int argc, const char * argv[]) {
    test1();
    test2();
    test3();
    test4();
    test5();
    test6();
    return 0;
}

不修改数组找出重复的数字

在一个长度为n+1的数组里的所有数字都在1-n的范围内,所以数组中至少有一个数字是重复的。请找出数组中任意一个重复的数字,但不能修改输入的数组。例如,如果输入长度为8的数组{2,3,5,4,3,2,6,7},那么对应的输出是重复的数字2或3

思路1:

这一题看起来和前面题目类似。由于题目要求不能修改输入的数组,我们可以创建一个长度为n+1的辅助数组,然后逐一遍历把原数组的每个数字复制到辅助数组。如果原数组中被复制的数字是m,则把它复制到辅助数组下标为m的位置,这样就很容易发现哪个数字是重复的。由于需要创建 一个数组,该方案需要O(n)的辅助空间

思路2:

尝试避免使用O(n)的辅助空间。为什么数组中会有重复的数字?假如没有重复的数字,那么在1~n的范围内只有n个数字。由于数组里包含超过n个数字,所以一定包含了重复的数字。看起来在某些范围里数字的个数对解决问题很重要

我们把从1~n的数字从中间的数字m分为两部分,前面一半为1~m,后面一半m+1~ n。如果1~m的数字的数目超过m,那么这一半的区间里一定包含重复的数字;否则,另一半m+1~n的区间里一定包含重复的数字。我们可以继续把包含重复数字的区间一分为二,直到找到一个重复的数字。这个过程和二分查找算法和类似,只是多了一步统计区间里数字的数目

我们以长度为8的数组{2,3,5,4,3,2,6,7}为例分析查找的过程。根据题目要求,这个长度为8的所有数字都在1~7的范围内。中间的数字4把1~7的范围分为两段,一段是1~4,另一段是5~7。接下来统计1~4这4个数字在数组中出现的次数,他们一共出现了5次,因此这4个数字中一定有重复的数字。

接下来我们再把1~4的范围一分为二,一段是1、2两个数字,另一段是3、4两个数字。数字1或2在数组中一共出现过2次,我们再统计数字3、4出现的次数,他们一共出现了3次。这意味这3、4两个数字一定有一个重复了,我们再统计这两个数字在数组中出现的次数。接着发现数字3出现了两次,是一共重复数字。

// 统计个数
int countRange(const int *numbers,int length, int start, int end)
{
    if (numbers == nullptr)
        return 0;
    int count = 0;
    for (int i=0; i<length; i++)
        if (numbers[i]>=start&&numbers[i]<=end)
            ++count;
    return count;
}

int getDumplication(const int* numbers, int length)
{
    if (numbers == nullptr || length <= 0)
        return -1;

    int start = 1;
    int end = length - 1;
    while (end>=start) {
        int middle = ((end-start)>>1) + start; // 计算中间值
        int count = countRange(numbers, length, start, middle);
        if (end==start) // 结束遍历
        {
            if (count>1)
                return start;
            else
                break;
        }
        if (count>(middle-start+1))  
            end = middle;
        else
            start = middle +1;
    }
    return -1;
}

上述代码按照二分查找的思路,如果输入长度为n的数组,那么函数countRange将被调用O(logn)次,每次需要调用O(n)的时间,因此总的时间复杂度是O(nlogn),控件复杂度为O(1)。和最前面提到的需要O(n)的辅助空间算法相比,这种算法相当于以时间换空间

需要指出的是,这种算法不能保证找出所有重复的数字。例如,该算法不能找出数组{2,3,5,4,3,2,6,7}中重复的数字2,这是因为在1~2的范围里有1和2两个数字,这个范围的数字也出现2次,此时我们用该算法不能缺点是每个数字各出现一次还是某个数字出现两次。

参考

《剑指offer》

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,293评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,604评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,958评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,729评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,719评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,630评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,000评论 3 397
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,665评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,909评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,646评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,726评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,400评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,986评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,959评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,996评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,481评论 2 342

推荐阅读更多精彩内容

  • 本文首发于我的个人博客:尾尾部落 题目描述 在一个长度为n的数组里的所有数字都在0到n-1的范围内。 数组中某些数...
    繁著阅读 929评论 0 2
  • 描述: 在一个长度为 n 的数组里的所有数字都在 0 到 n-1 的范围内。数组中某些数字是重复的,但不知道有几个...
    要记录的Ivan阅读 221评论 0 0
  • 题目一:找出数组中重复的数字在一个长度为n的数组里所有数字都在0~n-1的范围内,数组中某些数字是重复的,单不知道...
    继续向前冲阅读 470评论 0 0
  • 我存在于人类的未知 色彩夺目 角钳锐利 过于张狂 人类对于我的定义为:毒 亦如蘑菇 因为吸引众生 才会是毒蘑菇 ...
    宫尘阅读 234评论 1 4
  • 今天看到最扎心的一句话了……可是又能怎么办呢?过了今晚我还想跟妈妈视频,过了今晚我还想明天上班的时候同事会在中午...
    Anna安啦阅读 375评论 0 0