记一次程序优化

入职一周,还算比较清闲。没有一些明确时间点的事情,所以目前的大部分时候,探索成分居多,绞尽脑汁做的某些架构设计,不谈结果,就过程而言,收获颇丰。
总的来说,蛮喜欢目前的状态,思考>编码。
今天下午,旁边的同事在做一个关于库上的检查,简单说就是判断数据库的某些字段是否唯一。
最开始是一条sql语句,大概是这样的:

select * from aaa group by aaa.bbb, aaa.ccc having count(*) > 1;

全表大概1000w的数据,第一次执行,用了16分钟

我们的mysql是架在一台12核,128Gb内存的机器上,应该说资源是足够的,但是这样的执行时间,相比于oracle的2分钟左右的处理速度,还是慢了太多。
单纯select *大概在1分钟左右,所以大部分的开销在group by上,从这点上看,mysql的一些计算能力确实欠缺太多。

后来考虑优化,将select *的结果全部装入内存,然后进行查找。
思路上,没有任何问题,但他的实施是这样的:
判断重复时,使用了2个循环,如下:

vector<string> data;

for (int i = 0; i < data.size(); i++)
{
    for (int j = i + 1; j < data.size(); j++)
    {
        if (data[i] == data[j])
        {
            //do some
        }
    }
}

这个代码执行了大概30分钟,仍然没有结果。
正好当时没事,就帮他做了一些优化。很显然,这样的一个唯一性检查使用穷举是有问题的,复杂度在O(N^2),对于1000w这样的数量级,O(N^2)基本上是不可实现的。所以第一步的优化,就是将这个算法的复杂度降下来。
增加一个排序操作,这样,程序的处理流程将变为:
1 排序
2 两两比较,确定非唯一值

总体的复杂度为O(N logN)
在排序中,使用了stl的sort函数进行排序,程序整体执行一遍的时间为7分钟。刨掉出库select的1分钟,排序的时间在6分钟左右。这么说来,还是有些慢。这个时候,更好的优化方式是将算法更改为hash,这样时间复杂度将降为O(N),那么将会有质的提升,但是考虑到stl的map是红黑树实现,复杂度为O(N logN),并不是很好的选择,而自己重新写一个hash函数好像又比较麻烦。所以权衡了一下,还是继续从排序入手。

最开始,想要将排序操作转移到mysql上执行,也就是在出库的同时进行排序,需要把出库语句改为:

select * from aaa order by aaa.bbb, aaa.ccc;

这样之后,内存中只需要一次遍历就好,时间开销基本可以忽略,这条sql的执行时间为4分钟,虽然相比于前面有了一些提升,但还是不够理想,还需要进一步的优化。

在上文的程序中,我们发现全部的数据存储在一个vector里,每一条数据为一个string,因此核心的开销为string的operator < 比较操作。string是一个相对来说比较庞大的类,会造成许多的额外开销。
我们只需要比较2个字段的唯一性,完全可以将这两个字段拼接起来,存在一个char*中,之后的比较基于memcmp。
当然,可能有这样的问题,第一条记录的第一个字段为“123”,第二个字段为“456”;而第二条记录的第一个字段为“12”,第二个字段为“3456”,这样本来不等的两个字段,拼接后相同。解决方式也很简单,在“123”的结束位置加入一个特殊字符,再拼接,这样就可以了。
在更改为char*之后,数据的排序时间从原来的3分钟降到了40秒

目前来看,总体的执行时间为1分钟40秒,其中出库1分钟,排序40秒。系统的整体瓶颈转移到了出库这里,这里的优化方式就相当明显了,我们只是用到了2个字段,完全没有必要select *,只需要将select语句改为:

select aaa.bbb, aaa.ccc from aaa;

这样更改后,出库的时间为13秒,整体的执行时间为50秒

这个时间,已经完全符合要求了,但是为了追求更高的速度,继续将计算并行化,也就是说,充分利用cpu的多核计算能力,将任务尽可能的拆分为多个线程来完成。对于本例来说,我们并不需要整体有序的数据,因此,考虑hadoop的分桶思想,我们将取出的char*每位相加,得到的结果对10取余,将结果分散到10个线程去做,最后的执行结果为4秒钟

经过上面的一步步优化,总共的执行时间为17秒
(原文时间2014-1-15)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,816评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,729评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,300评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,780评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,890评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,084评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,151评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,912评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,355评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,666评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,809评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,504评论 4 334
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,150评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,882评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,121评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,628评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,724评论 2 351

推荐阅读更多精彩内容

  • 场景: 生产上发薪在过账时过长,特别是发薪人数过多时,耗时非常巨大,严重影响发薪效率; 例如:厨房电器过账人数1....
    小超_f598阅读 629评论 0 0
  • 特别说明: 1、本文只是面对数据库应用开发的程序员,不适合专业DBA,DBA在数据库性能优化方面需要了解更多的知识...
    安易学车阅读 1,805评论 0 40
  • SQL 优化(载录于:http://m.jb51.net/article/5051.htm) 作者: (一)深入浅...
    yuantao123434阅读 730评论 0 7
  • 原文:https://my.oschina.net/liuyuantao/blog/751438 查询集API 参...
    阳光小镇少爷阅读 3,817评论 0 8
  • 风雨人生 文/火树银花 风 疯够了吧 回到家中息息脚吧 雨 淋透了吧 归至港湾更更衣吧 人 混惨了...
    竹花阅读 167评论 1 1