CUDA应用程序性能分析

CUDA工具箱中提供了一个很有用的工具叫CUDA profiler,可以用来帮组我们分析CUDA应用程序的性能。通过用CUDA profiler分析我们的应用程序我们可以发现程序的性能瓶颈在哪里,以便更好的实现和组织我们的代码。CUDA工具箱提供两种profiler:

  1. Visual Profiler:带图形界面的分析工具,可以用来显示CPU和GPU各种活动的时间线,可以自动分析程序的性能。
  2. nvprof:命令行工具,可以用来收集程序运行过程中的各种性能指标,我们需要根据这些性能指标来分析程序的性能瓶颈在哪里。

1. 两种性能指标

nvprof可以收集两种不同的性能指标,EventMetric

  1. Event: Event存储了kernel运行过程中GPU上各种可数的activity,action和occurance发生的次数,这些都有专门的硬件计数器来记录。每一个Event代表了一个具体的硬件计数器,会在kernel运行过程中记录特定的活动。
  2. Metric: 每一个Metric都有一个或多个Event的结果计算而来,用来表达一些性能指标。

通过分析这些性能指标,我们可以分析程序的性能。

2. 从GPU的利用率还分析CUDA程序的性能

如果我们想让我们的CUDA程序性能很好运行的很快,一个很直觉的想法是让该CUDA程序可以充分利用GPU,换句话说,CUDA程序的性能可以通过想办法提高GPU的硬件利用率来提升。这里有多个metrics跟硬件利用率有关,特别是achieved_occupancy.

Achieved_occupancy

Achieved_occupancy是一个很重要的性能指标可以用来衡量我们的CUDA程序对GPU的利用率。Achieved_occupancy是一个比例:
achieved\_occupancy = \frac{一个流处理器上每一个有效的运行周期内有效运行的warps的平均数量}{一个流处理器所能支持的有效运行的warps 的最大数量}

从这个公式上我们了解到occupancy是跟warps相关的。那什么是warps呢?在上一篇文章理解CUDA应用程序的结构和执行中我们了解到,warp可以看错CUDA程序的最小执行单元,一个warp将包含32个线程,这32个线程会同时运行,意味着在同一个时钟周期内这32个线程将执行相同的指令,当线程数少于32个时依旧会凑够32个线程组成一个warp执行,只不过有些线程在做无用功。 正是因为一个CUDA应用程序的所需的所有线程将会被组织成warps在GPU上运行,所以achieved_occupancy考察的是warps在GPU上的运行状况。

GPU利用率的物理上限

Achieved_occupancy = 100% 是一个流处理器利用率的物理上限,因为每一个流处理器同一时间所能容纳的warps是有限的,nvidia GTX 970拥有13了流处理器,每一个流处理器所能支持的warps的最大数量是64. 所以当一个流处理器上每一个有效的运行周期内有效运行的warps的平均数量达到64时,achieved occupancy达到100%, 达到利用率的物理上线。物理上限只受GPU流处理器的硬件限制。

GPU利用率的理论上限

上面我们提到了GPU利用率的物理上限受GPU硬件的限制,那GPU利用率的理论上限则同时受目标设备,kernel的实现,以及kernel加载时线程的配置参数所影响。一个流处理器上所能运行的warps的个数受限于这个流处理器上分配的thread blocks的个数,而一个流处理器上所能容纳的thread blocks个数也是有限的,对于GTX 970来说,每一个流处理器最多容纳32个thread blocks。32个thread blocks只是GTX 970能容纳的上限,而实际情况要复杂的多,每个流处理器所能容纳的thread blocks个数还要受该流处理器上共享内存的大小,寄存器的大小,以及每个线程对寄存器和共享内存的使用情况所决定。

寄存器是每个线程用来存储本地变量以减少内存读取时间。每个流处理器上的寄存器的个数是有限的而且是被所有该流处理上的线程所共享的。

一个thread\ block所需要的寄存器的个数=thread\ block中线程的个数 * 每个线程所需的寄存器的个数

  1. thread block 中线程的个数取决于kernel被加载时线程的配置参数
  2. 每个线程所需的寄存器的个数 取决于kernel代码的实现

所以在我们加载一个kernel的时候,每一个thread block所需要的寄存器的个数也就确定了。当一个thread block被分配到流处理器上时, 所需的所有寄存器要同时一次性分配给该thread block。 因此当一个thread block消耗过多的寄存器时,那么该流处理器所能分配的thread block的个数就会变少,如果thread blocks中包含的线程数少,那么流处理上所运行的warps就也会变少。假设一个GPU上,只有一个流处理器,一个流处理器上总共有100个寄存器,kernel运行成产生20thread blocks,每一个thread block都需要消耗60个寄存器,那这个流处理最多每次只能容纳一个thread block,因为两个thread blocks需要120个寄存器。 因此这20个thread blocks需要按顺序在该流处理器上运行20次。每个thread block需要运行10秒那一共需要运行200秒。且每次有40个寄存器是空闲的,会造成资源的浪费。如果一个thread block消耗50个寄存器,那每个流处理器每次可以同时执行2个thread blocks,20个thread blocks每次运行两个,运行1o次一共消耗100秒。

共享内存是用来给每个thread block里面的线程进行通信的,通过读写相同区域的内存达到数据交换的目的。像寄存器一样,流处理器内的共享内存的大小是固定的,当分配一个thread block到流处理器上时,除了分配需要的寄存器,也需要分配所需的共享内存。因此我们可以说处理器分配资源时是以thread block所需的资源为最小单元的。当一个流处理器没有足够的资源分配给thread block时,thread block就不会被分配到该流处理器,即使该流处理器还有很多未使用的资源。

所以每当一个kernel被加载的时候,每一个流处理器上能分配的thread blocks的个数就已经确定了因此warps的个数也就确定了,基于寄存器和共享内存的限制,每一个流处理器上分配的warps的个数会小于等于这个流处理器所能支持的最多的warps的个数。因此相比于设备的物理上限,当一个kernel和要运行的设备确定的时候,这个kernel对GPU利用率的理论上限也就确定了。但是实际运行过程中,achieved_occupancy,是要小于理论上限的。因为achieved_occupancy考察的是每一个有效的时钟周期内平均的有效的warps的个数。从程序开始执行到所有的任务完成之间所有的时钟周期为有效的时钟周期。一个warp从其线程开始执行到其中的所有的线程都退出为止,我们称这个warp为一个有效的warp,意味着当一个warp执行完其最后一条指令,这个war就不再是一个有效的warp。一个thread block是有效的直到其中所有warp变得不在有效。当一个thread block中的所有warp完成其工作,这个thread block变得不在有效的时候,所有分配给该thread block的资源才会被释放。于是有一种情况就是,一个thread block有50个warp,其中49个完成了工作,只有1个还在继续工作,则这个warp工作的这段时间是有效的时钟周期,而这段时间真正有效的warp只有一个。会拉低所有有效时钟周期内有效的warp的平均个数。因此有两个非常重要的因素将会影响到achieved_occupancy:

  1. unbalanced workload within a block: 如果一个thread block里面所有的warps不能同时完成,我们就说这个thread block的工作量是不平衡的。当warps间的工作量不均衡的时候,有一些warp提前完成任务变成无效的warp,它们需要去等待其他warps完成工作,但是这些无效的warp还是会占用资源直到所有的warps都完成任务退出。因此即使空闲的资源可以分配给未执行的thread block,但是这些资源还没有被释放,无法分配。因此设备的利用率会很低。
  2. unbalanced workload between blocks:如果一个thread grid里面所有的thread blocks不能同时完成,我们就说thread blocks间的工作量不均衡。因为一个kernel要所有的thread block完成任务才能退出,加载另外一个kernel。所以说如果到最后只剩下一个thread block在运行,那整个GPU大部分的流处理器都要闲置去等这个thread block完成任务,整个kernel才会退出。这会导致整个GPU的利用率很低。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 217,907评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,987评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,298评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,586评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,633评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,488评论 1 302
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,275评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,176评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,619评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,819评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,932评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,655评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,265评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,871评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,994评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,095评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,884评论 2 354

推荐阅读更多精彩内容